Datos etiquetados/no etiquetados (labeled/unlabeled data)

NATURALEZA

Es un concepto que no se aplica en exclusiva a la IA. El etiquetado de datos es uno de los procesos más importantes de la preparación de datos en el marco del aprendizaje automatizado (machine learning).

CONCEPTO

Los datos serán etiquetados o no etiquetados dependiendo de si han sido sometidos a un proceso de preparación. El etiquetado de datos consiste en asignar una o más etiquetas significativas a los datos. Las etiquetas son categorías que se asocian a los datos. Por ejemplo, las palabras clave que sirven para identificar un artículo académico. Los datos no etiquetados pueden incluir imágenes, grabaciones de audio y vídeo o texto. Estos datos pueden ser calificados mediante etiquetas, que permiten su identificación. El etiquetado de los datos puede realizarse manualmente (por un ser humano) o automáticamente (por una máquina).
En ocasiones se habla de datos “semietiquetados” para referirse a datos no suficientemente etiquetados

IMPORTANCIA

Desde la perspectiva técnica, la clasificación entre datos etiquetados y no etiquetados permite identificar las tareas que pueden realizarse de forma automática. Desde el punto de vista jurídico, el etiquetado es un proceso de preparación de datos que puede ser necesario regular por afectar a derechos e intereses. La Propuesta de Ley de inteligencia artificial de la Unión Europea (Reglamento del Parlamento Europeo y del Consejo por el que se establecen normas armonizadas en materia de inteligencia artificial) se ocupa del etiquetado de los datos respecto delos sistemas de inteligencia artificial calificados como de alto riesgo. El artículo 10.2 de la Propuesta incluye el etiquetado dentro de las operaciones de tratamiento para la preparación de datos (menciona la anotación, el etiquetado, la depuración, el enriquecimiento y la agregación) que deben ser sometidas a “prácticas adecuadas de gobernanza y gestión de datos”. El artículo 17.1 obliga a los proveedores de sistemas de IA de alto riesgo a establecer un sistema de gestión de la calidad que documente, entre otros aspectos, los sistemas y procedimientos de etiquetado de datos.

USOS Y RIESGOS

Los datos etiquetados pueden ser utilizados en modelos de aprendizaje supervisado y permiten realizar clasificaciones y buscar relaciones entre diferentes variables. Los datos no etiquetados se utilizan en el aprendizaje automático no supervisado, para descubrir patrones entre los datos. Los datos no etiquetados pueden ser agrupados o asociados.
Un etiquetado sesgado de los datos puede hacer que los modelos de aprendizaje arrojen resultados discriminatorios. También han surgido denuncias sobre la precariedad de las condiciones laborales de los etiquetadores de datos.

AUTORES

Ignacio García Vitoria

Privacy Settings
We use cookies to enhance your experience while using our website. If you are using our Services via a browser you can restrict, block or remove cookies through your web browser settings. We also use content and scripts from third parties that may use tracking technologies. You can selectively provide your consent below to allow such third party embeds. For complete information about the cookies we use, data we collect and how we process them, please check our Privacy Policy
Youtube
Consent to display content from - Youtube
Vimeo
Consent to display content from - Vimeo
Google Maps
Consent to display content from - Google
Spotify
Consent to display content from - Spotify
Sound Cloud
Consent to display content from - Sound