Anotadores o etiquetadores de datos (data labelers)
NATURALEZA
Término incorporado al ámbito tecnológico, en particular al análisis de datos, empleado también en la archivística o en la actividad registral, específicamente aplicable a los sistemas de machine learning.
CONCEPTO
Seres humanos que, empleando una herramienta informática, organizan, clasifican y etiquetan información con el fin de que la máquina de aprendizaje entrene sus algoritmos y con ello consiga distinguir entre imágenes, archivos de audio o vídeo, o secuencias de texto,entre otros. Ayudan a los algoritmos de inteligencia artificial a comprender y clasificar la información que procesan.
Los anotadores, en primer lugar, clasifican las imágenes, vídeos o textos añadiendo etiquetas a estos datos sin procesar, proporcionándoles un contexto que permite al sistema de machine learning aprender. A continuación, verificarán la autenticidad y la precisión de los datos registrados,lo cual debe hacerse con pulcritud para no dar lugar a datos incorrectos que posteriormente supongan costes de re-entrenamiento de datos costosos. La anotación puede ser manual realizada por humanos o automática, en cuyo caso corresponde a estos predefinir las reglas y condiciones de clasificación para dar lugar al mejor resultado posible.
IMPORTANCIA
La labor de los anotadores o etiquetadores de datos es esencial para que los sistemas de machine learning basados en aprendizaje supervisado realicen predicciones óptimas. La eficiencia del sistema, así como la detección de contenidos tóxicos, dependerá del aprendizaje de datos facilitado por estos anotadores. Sin el papel de los anotadores de datos, los modelos de aprendizaje automático no podrían reconocer patrones, extraer características ni realizar tareas como clasificación, detección, segmentación o procesamiento del lenguaje natural.
USOS Y RIESGOS
El etiquetado de datos garantiza un mejor control de calidad de los datos, lo que favorece unas predicciones más certeras por parte del sistema, así como facilita una mejor usabilidad de los datos, en tanto que permite optimizar su uso y categorización en los modelos de IA. Los etiquetadores de datos, además de realizar un trabajo repetitivo, con efectos negativos sobre su salud mental, se encuentran expuestos en su tarea de etiquetado a contenidos violentos y siniestros que han de diferenciar a efectos de que el sistema de inteligencia artificial pueda discriminarlos en su funcionamiento.
Los errores humanos cometidos por los anotadores pueden generar imprecisiones en el proceso y modelado de datos. Además, suscita enormes dudas la sostenibilidad de su realización, en tanto que, en ocasiones, se aprovecha de trabajadores de terceros países con salarios más bajos en los que se puede contratar con mayores índices de precarización. Para evitar los sesgos es importante que se faciliten a los anotadores definiciones claras, estandarizadas y comunes para realizar el etiquetado, y que sea varios los sujetos, a ser posible de distintos sexos, etnias,edades y creencias los que se encarguen de estas tareas. Puede cerciorarse su grado de acierto a través de los correspondientes tests de anotadores.
Los datos anotados permiten que los modelos de IA se implementen en varias aplicaciones, como
chatbots, reconocimiento de voz y automatización.
AUTORES
Manuel Pereiro Cárceles