Aprendizaje reforzado (Reinforcement learning)

NATURALEZA

Es un concepto de IA propiamente dicho.

CONCEPTO

El aprendizaje reforzado o por refuerzo es otra de las técnicas que utiliza el aprendizaje automático (machine learning), junto con el aprendizaje supervisado y no supervisado. A diferencia de estos, que utilizan un conjunto de datos bien para hacer clasificaciones (aprendizaje supervisado,que usa datos etiquetados) o predicciones (aprendizaje no supervisado, que no usa datos etiquetados), el aprendizaje por refuerzo usa los datos para generar estrategias de forma automática. La máquina aprende de su propia experiencia: analiza las estrategias que han funcionado en el pasado, evalúa su efectividad, y las vuelve a aplicar en situaciones similares, o bien refuerza esas estrategias. Todo ello según las recompensas positivas o negativas que haya obtenido.
Este tipo de técnica requiere un entorno de simulación, en el que hay que tomar acciones y en el que entran en juego múltiples variables que van cambiando. Entorno en el que un agente (un programa o algoritmo) realiza una acción que genera un nuevo estado y una posible recompensa positiva o negativa; y en el que el agente aprenderá la mejor estrategia en ese entorno simulado y, como se ha señalado, a partir de esa experiencia volverá a aplicar la misma estrategia o recomendará una mejor.
En resumen, se trata de una forma de optimización basada en datos más conceptos. Se basa en aplicar la psicología conductista a la máquina.

IMPORTANCIA

Para un técnico en IA es importante conocer el concepto porque es una de las técnicas que utiliza el aprendizaje automático y es también esencial para la comprensión de una de las estrategias que una IA puede utilizar.
Para el jurista, al igual que con el aprendizaje supervisado y no supervisado, su entendimiento es fundamental porque se utilizan datos para generar estrategias. Por lo tanto, es también importante conocer la procedencia de esos datos, cómo se han obtenido y seleccionado, qué metodologías se han aplicado a los mismos, etc. De esta forma, podrá comprobarse, por ejemplo, que se ha respetado la normativa de protección de datos; o que los datos utilizados para entrenar el algoritmo no puedan producir un sesgo que de como resultado final la afectación a derechos fundamentales.

USOS Y RIESGOS

Este tipo de aprendizaje se usa, por ejemplo, en el ámbito de la robótica y de los videojuegos, en la conducción automática de coches o en medicina para ajustar medicaciones. También se está utilizando para crear webs personalizadas para cada internauta y en los mercados financieros para crear carteras personalizadas de inversión.
Como en el caso del aprendizaje supervisado y no supervisado, el mayor riesgo está en los datos que se utilizan -en este caso- para generar esas estrategias. No solo que la forma en que se hayan recopilado y tratado esos datos respeten la normativa al respecto, sino que el conjunto de datos utilizados pueda reproducir los sesgos y discriminaciones que se dan en la realidad. Por lo tanto, se debería quizás separar el “peligro” delos algoritmos y técnicas en sí, y centrar los riesgos siempre en la etapa de recolección y entendimiento de los datos. Porque los sesgos pueden expandirse de los datos a las estrategias o decisiones del modelo. Si bien es cierto que desde los algoritmos se puede corregir el sesgo de los datos.
Como ventajas, el aprendizaje por refuerzo resuelve el difícil problema de correlacionar acciones inmediatas con sus consecuencias a largo plazo.Por ejemplo, Pacman (el agente) se encuentra en un punto determinado (ubicación) del laberinto (medio ambiente). Recibe puntos por comer(recompensa positiva) o muere si se encuentra con un fantasma (recompensa negativa) según hacia dónde se desplace por el laberinto (según la acción que realice). Más allá de la recompensa positiva o negativa, existe la recompensa acumulada esperada de ganar el juego. Así, el aprendizaje por refuerzo se basa en un bucle de estado/acción/recompensa. Para dar forma a la política óptima, el agente se enfrenta al dilema de explorar nuevos Estados (exploración) al tiempo que maximiza su recompensa acumulada esperada (explotación).
Como usos positivos, podría señalarse en el ámbito de la Administración pública se podría utilizar para optimizar el uso de recursos públicos, por ejemplo para planificar las políticas de actuación para reducir la contaminación.