Modelos fundacionales (foundation models)

NATURALEZA

Es un concepto de IA propiamente dicho.

CONCEPTO

Los modelos fundacionales son sistemas de IA entrenados con enormes cantidades de datos no etiquetados que pueden adaptarse a una gran variedad de tareas. Son capaces de aplicar el conocimiento aprendido en el desempeño de una tarea al desempeño de otra tarea distinta y son susceptibles de optimizar el desempeño de una tarea concreta partir de su propia experiencia. El proceso por el cual un modelo fundacional se ajusta o entrena para desempeñar mejor una tarea específica se conoce como fine-tunning.
De acuerdo con el Real Decreto 817/2023, de 8 de noviembre, que establece un entorno controlado de pruebas para el ensayo del cumplimiento de la propuesta de Reglamento del Parlamento Europeo y del Consejo por el que se establecen normas armonizadas en materia de inteligencia artificial, un modelo fundacional es “un modelo de inteligencia artificial entrenado en una gran cantidad de datos no etiquetados a escala(generalmente mediante aprendizaje auto supervisado y/o con recopilación automática de contenido y datos a través de internet mediante programas informáticos) que da como resultado un modelo que se puede adaptar a una amplia gama de tareas posteriores.”
Una característica única de los modelos básicos es su adaptabilidad. Estos modelos pueden realizar una amplia gama de tareas dispares con un alto grado de precisión en función de las indicaciones de entrada. Algunas tareas incluyen el procesamiento de lenguaje natural (NLP), la respuesta a preguntas y la clasificación de imágenes. El tamaño y la naturaleza de uso general de los modelos básicos los diferencian de los modelos de machine learning tradicionales, que suelen realizar tareas específicas, como analizar texto en busca de opiniones, clasificar imágenes y pronosticar tendencias.
Puede utilizar los modelos fundacionales como modelos de base para desarrollar aplicaciones posteriores más especializadas. Estos modelos sola culminación de más de una década de trabajo que los vio aumentar en tamaño y complejidad. Por ejemplo, BERT, uno de los primeros modelo fundacionales bidireccionales, se lanzó en 2018. Se entrenó con 340 millones de parámetros y un conjunto de datos de entrenamiento de 16 GB. En 2023, solo cinco años después, OpenAI entrenó el GPT-4 mediante la utilización de 170 billones de parámetros y un conjunto de datos de entrenamiento de 45 GB. Según OpenAI, la potencia de cómputo requerida para el modelado fundacional se ha duplicado cada 3,4 meses desde 2012. Los modelos fundacionales actuales, como los modelos de lenguaje de gran tamaño (LLM) Claude 2 y Llama 2, y el modelo de conversión de texto a imagen Stable Diffusion de Stability AI, pueden realizar una serie de tareas listas para usar que abarcan múltiples dominios, como escribir publicaciones de blog, generar imágenes, resolver problemas matemáticos, entablar diálogos y responder preguntas basadas en un documento.
Los modelos fundacionales son una forma de inteligencia artificial generativa (IA generativa). Ellos generan resultados a partir de una o más entradas (indicaciones) en forma de instrucciones en lenguaje humano. Los modelos se basan en redes neuronales complejas, que incluyen las redes generativas antagónicas (GAN), los transformadores y los codificadores variacionales.
Si bien cada tipo de red funciona de manera diferente, los principios en los que se basa su funcionamiento son similares. En general, un modelo fundacional utiliza relaciones y patrones aprendidos para predecir el siguiente elemento de una secuencia. Por ejemplo, con la generación de imágenes, el modelo analiza la imagen y crea una versión de ella más nítida y definida. Del mismo modo, con texto, el modelo predice la siguiente palabra de una cadena de texto en función de las palabras anteriores y su contexto. Luego, selecciona la siguiente palabra mediante el uso de técnicas de distribución de probabilidad.
Los modelos fundacionales utilizan el aprendizaje auto supervisado para crear etiquetas a partir de los datos de entrada. Esto significa que nadie instruyó ni entrenó el modelo con conjuntos de datos de entrenamiento etiquetados. Esta característica separa a los LLM de las arquitecturas de ML anteriores, que utilizan el aprendizaje supervisado o no supervisado.
Algunos ejemplos de modelos fundacionales lanzados desde 2018 son:
BERT: Bidirectional Encoder Representations from Transformers (BERT) se lanzó en 2018 y fue uno de los primeros modelos fundacionales. BERT un modelo bidireccional que analiza el contexto de una secuencia completa y luego hace una predicción. Se entrenó con un corpus de texto sin formato y Wikipedia y se utilizaron 3300 millones de tokens (palabras) y 340 millones de parámetros. BERT puede responder preguntas, predecir oraciones y traducir textos.
GPT El modelo Generative Pre-trained Transformer (GPT) fue desarrollado por OpenAI en 2018. Utiliza un decodificador transformador de 12 capas con un mecanismo de auto atención. Se entrenó con el conjunto de datos BookCorpus, que contiene más de 11.000 novelas gratuitas. Una característica destacable del GPT-1 es la capacidad de llevar a cabo el aprendizaje zero-shot. GPT-2 se lanzó en 2019. Para entrenarlo, OpenAI utilizó 1500 millones de parámetros (en comparación con los 117 millones de parámetros utilizados con GPT-1). GPT-3 tiene una red neuronal d96 capas y 175 000 millones de parámetros. Se entrena con el conjunto de datos Common Crawl de 500 000 millones de palabras. El popular chatbot ChatGPT está basado en GPT-3.5. Y GPT-4, la versión más reciente, se lanzó a finales de 2022 y aprobó con éxito el examen uniforme de abogacía con una puntuación de 297 (76 %).

Claude 2 es el modelo de vanguardia de Anthropic, que se destaca por el diálogo reflexivo, la creación de contenido, el razonamiento complejo,creatividad y la codificación, todo creado con IA constitucional. Claude 2 puede aceptar hasta 100 000 tokens en cada mensaje, lo que significa que puede funcionar en cientos de páginas de texto o incluso en un libro entero. Claude 2 también puede escribir documentos más largos, como notas e historias del orden de unos cuantos miles de tokens, en comparación con su versión anterior.
Cohere tiene dos LLM: uno es un modelo de generación con capacidades similares a las del GPT-3 y el otro es un modelo de representación destinado a la comprensión de idiomas. Aunque Cohere tiene solo 52 000 millones de parámetros, supera a GPT-3 en muchos aspectos.
BLOOM es un modelo multilingüe con una arquitectura similar a la de GPT-3. Se desarrolló en 2022 como un esfuerzo de colaboración en el que participaron más de mil científicos y el equipo de Hugging Space. El modelo tiene 176 000 millones de parámetros y el entrenamiento duró tres meses y medio con 384 GPU Nvidia A100. Aunque el punto de control de BLOOM requiere 330 GB de almacenamiento, se puede ejecutar en un PC independiente con 16 GB de RAM. BLOOM puede crear texto en 46 idiomas y escribir código en 13 lenguajes de programación.
Hugging Face es una plataforma que ofrece herramientas de código abierto para crear e implementar modelos de machine learning. Actúa como un centro comunitario, y los desarrolladores pueden compartir y explorar modelos y conjuntos de datos. La membresía para individuos es gratuita, aunque las suscripciones ofrecen niveles de acceso superiores. Tiene acceso público a casi 200 000 modelos y 30 000 conjuntos de datos.

IMPORTANCIA

Los modelos fundacionales han experimentado un enorme avance técnico en los últimos tiempos.
Los modelos fundacionales están preparados para cambiar significativamente el ciclo de vida del machine learning. Aunque actualmente cuesta millones de dólares desarrollar un modelo fundacional desde cero, son útiles a largo plazo. Es más rápido y económico para los científicos de datos utilizar modelos fundacionales pre-entrenados para desarrollar nuevas aplicaciones de machine learning que entrenar modelos únicos de machine learning desde cero.
Un uso potencial muy relevante es la automatización de tareas y procesos, especialmente aquellos que requieren capacidades de razonamiento.Algunas aplicaciones de los modelos fundacionales son servicio de atención a clientes, traducción de idiomas, generación de contenidos,redacción de textos publicitarios, clasificación de imágenes, creación y edición de imágenes de alta resolución, extracción de documentos,robótica, sanidad o vehículos autónomos
Los modelos fundacionales, aunque estén pre-entrenados, pueden seguir aprendiendo de las entradas de datos o de las indicaciones recibidas durante la inferencia. Esto significa que es posible desarrollar resultados integrales a través de indicaciones cuidadosamente seleccionadas. Las tareas que pueden realizar los modelos fundacionales incluyen el procesamiento del lenguaje, la comprensión visual, la generación de código y participación centrada en las personas:

  1. Procesamiento del lenguaje natural: estos modelos tienen capacidades notables para responder preguntas en lenguaje natural e, incluso, la capacidad de escribir guiones o artículos cortos en respuesta a las indicaciones. También pueden traducir idiomas mediante tecnologías de NLP.
  2. Comprensión visual: Los modelos fundacionales se destacan en la visión artificial, especialmente, en lo que respecta a la identificación de imágenes y objetos físicos. Estas capacidades pueden utilizarse en aplicaciones como las de conducción autónoma y robótica. Otra capacidad es la generación de imágenes a partir del texto introducido, así como la edición de fotos y videos.
  3. Generación de código: Los modelos fundacionales pueden generar código de computadora en varios lenguajes de programación en función las entradas de lenguaje natural. También es posible utilizar los modelos fundacionales para evaluar y depurar el código.
  4. Compromiso centrado en las personas. Los modelos de IA generativa utilizan los datos de entrada humanos para aprender y mejorar las predicciones. Una aplicación importante y que, a veces, se pasa por alto es la capacidad de estos modelos para apoyar la toma de decisiones humanas. Los usos potenciales incluyen diagnósticos clínicos, sistemas de apoyo a la toma de decisiones y análisis.

Otra capacidad es el desarrollo de nuevas aplicaciones de IA mediante el ajuste de los modelos fundacionales existentes Voz a texto. Dado que los modelos básicos entienden el idioma, se pueden utilizar para tareas de conversión de voz a texto, como la transcripción y la subtitulación de videos en varios idiomas.
Esta enorme variedad de utilidades ha motivado su inclusión expresa en las últimas enmiendas parlamentarias a la propuesta de la AI Act, en este momento aún en tramitación. Además de ofrecer una definición de estos modelos, la propuesta advierte que existe una notable incertidumbre respecto a su posible evolución, tanto en lo referido a su tipología como a su autogobernanza. Con el objetivo de mitigar los posibles riesgos derivados de un diseño o implementación irresponsable de estos modelos, la AI Act contempla su sometimiento a las obligaciones generales impuestas a los sistemas de inteligencia artificial. Se contemplan algunas particularidades en relación con aquellos modelos fundacionales específicamente destinados a la generación de nuevos contenidos (consultar IA generativa).

USOS Y RIESGOS

Dada la amplitud de la definición de modelo fundacional empleada por el legislador español, que es el reflejo del enfoque recogido en las últimas enmiendas del Parlamento Europeo a la AI Act, no resulta posible enumerar exhaustivamente los usos y riesgos de los modelos fundacionales.Esta categoría comprende modelos muy diferentes entre sí, cada uno con sus propios casos de uso y sus propios riesgos, que dependerán de su concreto diseño, funcionamiento y sector de aplicación.

Los modelos fundacionales pueden responder de manera coherente a las indicaciones sobre temas en los que no se los ha entrenado explícitamente. Sin embargo, tienen ciertas debilidades. Estos son algunos de los desafíos a los que se enfrentan los modelos fundacionales:

  • Requisitos de infraestructura. Diseñar un modelo fundacional desde cero es costoso y requiere de enormes recursos; además, el entrenamiento puede llevar meses.
  • Desarrollo de frontend. Para las aplicaciones prácticas, los desarrolladores deben integrar los modelos fundacionales a una pila de software,incluidas las herramientas para la ingeniería de indicaciones, el ajuste y la ingeniería de canalizaciones.
  • Falta de comprensión. Si bien pueden proporcionar respuestas correctas desde el punto de vista gramatical y fáctico, los modelos fundacionales tienen dificultades para comprender el contexto de una indicación. Además, no tienen en cuenta los aspectos sociales ni psicológicos.
  • Respuestas poco fiables. Las respuestas a las preguntas sobre un tema determinado pueden ser poco fiables y, a veces, inapropiadas, tóxicas o incorrectas
  • Sesgo. El sesgo es una posibilidad clara, ya que los modelos pueden captar el discurso de odio y los matices inapropiados de los conjuntos de datos de entrenamiento. Para evitar esto, los desarrolladores deben filtrar cuidadosamente los datos de entrenamiento y codificar normas específicas en sus modelos.
BIBLIOGRAFÍA
AUTORES

Laura Hernández Llinás

Privacy Settings
We use cookies to enhance your experience while using our website. If you are using our Services via a browser you can restrict, block or remove cookies through your web browser settings. We also use content and scripts from third parties that may use tracking technologies. You can selectively provide your consent below to allow such third party embeds. For complete information about the cookies we use, data we collect and how we process them, please check our Privacy Policy
Youtube
Consent to display content from - Youtube
Vimeo
Consent to display content from - Vimeo
Google Maps
Consent to display content from - Google
Spotify
Consent to display content from - Spotify
Sound Cloud
Consent to display content from - Sound