Aprendizaje no supervisado (Unsupervised learning)

NATURALEZA

Es un concepto de IA propiamente dicho.

CONCEPTO

El aprendizaje no supervisado es una de las técnicas que utiliza el aprendizaje automático (machine learning), junto con el aprendizaje supervisado, para enseñar a los ordenadores a aprender de la experiencia. Al igual que el aprendizaje supervisado, el aprendizaje no supervisado utiliza un conjunto de datos, pero, a diferencia de aquél, sin unas respuestas etiquetadas que vayan unidas a esos datos. Utiliza algoritmos de machine learning para analizar y agrupar en clústeres conjuntos de datos sin etiquetar. Estos algoritmos descubren agrupaciones de datos o patrones ocultos sin necesidad de ninguna intervención humana.
El objetivo es desentrañar la estructura de los datos. De esta forma, los datos de entrada se utilizan como un conjunto de variables aleatorias, y de esos datos se extraen patrones ocultos, estructuras intrínsecas o agrupaciones de datos. Es decir, las técnicas de aprendizaje no supervisado habitualmente lo que tratan es de aprender algún tipo de estructura que es subyacente a los datos, bien identificando los elementos similares -que están cerca unos de otros-, y los no similares -que están más lejos entre sí-, o bien identificando grupos de elementos similares entre sí y distintos de los datos de otros grupos. En resumen, tratan de predecir un resultado a partir de los datos dados.
Esta técnica destaca, por tanto, por su capacidad para identificar similitudes y diferencias en la información. Por ello, es la más utilizada para la segmentación, el reconocimiento de imágenes o las estrategias de venta cruzada.

IMPORTANCIA

Es claro que se trata de un concepto básico para el técnico en IA, pero también es fundamental para el jurista porque las técnicas de aprendizaje automático utilizan datos por lo que es importante conocer la procedencia de esos datos, cómo se han obtenido y seleccionado, qué metodologías se han aplicado a los mismos, etc. De esta forma, podrá comprobarse, por ejemplo, que se ha respetado la normativa de protección de datos; o que los datos utilizados para entrenar el algoritmo no puedan producir un sesgo que de como resultado final la afectación a derechos fundamentales.

USOS Y RIESGOS

Uno de los principales riesgos que se suele señalar es la producción de sesgos que dé lugar a discriminaciones y, en definitiva, tenga un impacto en los derechos fundamentales de las personas. Por ejemplo, si el conjunto de datos seleccionados y utilizados para entrenar el algoritmo reproduce las desigualdades ya existentes en la sociedad, estas desigualdades se reproducirán en las predicciones que aquel realice. Es cierto que en primer término, hay un factor humano, pues las bases de datos utilizadas para el entrenamiento habrán sido generadas por los programadores de las aplicaciones o los usuarios. Pero teniendo conocimiento de este riesgo, se abre también la posibilidad de que los técnicos en IA y programadores aprendan a detectar esos sesgos, para generar bases de datos más adecuadas, así como incorporar a los equipos personas expertas en derechos que puedan tratar de evitar esos efectos discriminatorios indeseados.

Ver también entrada Datos etiquetados/no etiquetados.

BIBLIOGRAFÍA

PEREZ LOPEZ, CESAR (2021): MACHINE LEARNING. TÉCNICAS DE APRENDIZAJE SUPERVISADO A TRAVÉS DE R.
SIMO SOLER, ELISA; ROSSO, PAOLO (2022): INTELIGENCIA ARTIFICIAL Y DERECHO: ENTRE EL MITO Y LA REALIDAD. DIARIO LA LEY Nº 9982,WOLTERS KLUWER.

AUTORES

Covadonga Ferrer