Modelo de lenguaje de gran tamaño (Large Language Model -LLM-)
NATURALEZA
Se trata de un concepto propio de la IA. El origen de los modelos de lenguaje está en el trabajo del matemático Andrey Markov que en 1917 aplicó las matemáticas a la poesía, demostrando que la probabilidad de que aparezca un carácter depende del carácter anterior. Los modelos de lenguaje de gran tamaño surgieron con la introducción de las redes neuronales un siglo después.
CONCEPTO
El modelo de lenguaje de gran tamaño (LLM) es una técnica de IA cuya aplicación, basada en redes neurales, permite procesar y almacenar grandes cantidades de texto, analizando y entendiendo el lenguaje natural, así como generando respuestas a partir de datos introducidos por el usuario. Los modelos de lenguaje de gran tamaño son englobados dentro de los modelos de lenguaje profundo, los cuales se han de pre-entrenar a partir de cantidades masivas de parámetros y datos sin etiquetar.
Los modelos de lenguaje de gran tamaño (LLM) son modelos de inteligencia artificial diseñados para procesar lenguaje natural. Se entrenan usando técnicas de aprendizaje profundo y grandes cantidades de datos, con el objeto de capturar en la medida de lo posible, todos los matices y complejidades que tiene el lenguaje humano.
Estos modelos han demostrado ser muy efectivos en tareas como la generación de texto, la traducción automática, el reconocimiento de voz, el análisis de sentimientos o la respuesta automática a preguntas.
A nivel científico, hay tres elementos que sientan las bases de los LLM:
El modelo Transformer, introducido en el paper «Attention is All You Need» por Vaswani et al. en 2017, cambió fundamentalmente la forma en que se abordaban las tareas relacionadas con el lenguaje al ofrecer un mecanismo de atención que podía pesar la importancia relativa de diferentes palabras en una frase, los Transformers establecieron el camino para la evolución de los LLM.
Desarrollado por investigadores de Google, BERT (Bidirectional Encoder Representations from Transformers) revolucionó la comprensión del lenguaje en máquinas al entrenar representaciones de palabras basadas en su contexto completo, es decir, considerando palabras anteriores y posteriores en una frase. El artículo «BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding» detalla cómo BERT estableció nuevos estándares en múltiples tareas del procesamiento del lenguaje natural.
OpenAI introdujo el modelo Generative Pre-trained Transformer (GPT). Mientras que BERT se centró en la comprensión del lenguaje, GPT fue diseñado para generar texto. A partir de GPT-2 y su sucesor más avanzado, GPT-3, vimos ejemplos asombrosos de generación de texto, desde la redacción de ensayos hasta la creación de poesía. El paper «Language Models are Few-shot Learners» proporciona una visión detallada del diseño y las capacidades de GPT-3.
IMPORTANCIA
Los modelos de lenguaje de gran tamaño tienen una importancia fundamental en su aplicación a la IA generativa y, por consiguiente, en la creación de herramientas capaces de simular la capacidad e inteligencia. Así, sin los LLMs la capacidad de procesamiento y predicción de la IA se vería reducida, por lo que este término resulta esencial para la comprensión del sentido y alcance de las actuales herramientas de IA generativa.
Un factor clave en el funcionamiento de los LLM es la forma en que representan las palabras. Las formas anteriores de machine learning utilizaban una tabla numérica para representar cada palabra. Sin embargo, esta forma de representación no podía reconocer las relaciones entre las palabras, como las palabras con significados similares. Esta limitación se superó mediante el uso de vectores multidimensionales, también denominados incrustaciones de palabras, para representar palabras de modo que las palabras con significados contextuales similares u otrasrelaciones estén cerca unas de otras en el espacio vectorial.
Al utilizar incrustaciones de palabras, los transformadores pueden preprocesar el texto como representaciones numéricas a través del codificador y comprender el contexto de palabras y frases con significados similares, así como otras relaciones entre palabras, como las partes del discurso.Entonces es posible que los LLM apliquen este conocimiento del idioma a través del decodificador para producir un resultado único.
Ello permite al LLM interactuar de modo que pueda dar respuesta escrita comprensible a las preguntas de los usuarios
Dado que en el ámbito jurídico predomina el lenguaje escrito, la capacidad de los Modelos de Lenguaje de Gran Tamaño crear, analizar y traducir textos reviste enorme interés para los profesionales del derecho. Son, asimismo, particularmente importantes porque son la base de diversos programas de IA generativa
USOS Y RIESGOS
Los estudios ya han demostrado cómo las ideas racistas, sexistas y abusivas están incrustadas en estos modelos, al asociar categorías como médicos con hombres y enfermeras con mujeres, y los aspectos positivos con las personas blancas y los negativos, con las negras. Y, ante ciertas indicaciones, también pueden impulsar el genocidio, las autolesiones y el abuso sexual infantil. Debido a su tamaño, tienen una huella de carbono increíblemente alta. Gracias a su fluidez, confunden fácilmente a las personas haciéndoles pensar que un humano escribió sus resultados, lo que los expertos advierten que podría permitir la producción masiva de desinformación.
Por otra parte, se están realizando muy pocas investigaciones para comprender cómo las deficiencias de esta tecnología podrían afectar a las personas o para descubrir cómo diseñar mejores LLM que mitiguen estos desafíos. Las pocas empresas lo suficientemente ricas para entrenar y mantener LLM tienen un gran interés económico en negarse a examinarlo detenidamente. En otras palabras, los LLM se están integrando cada vez más en la infraestructura lingüística de internet sobre unas bases científicas inestables.
Bajo el paraguas del proyecto BigScience dirigido por la start-up Huggingface, que tiene un enfoque de «ciencia abierta» para comprender el procesamiento del lenguaje natural (PLN o NLP, por sus siglas en inglés), se está intentando construir un LLM de código abierto que sirva como un recurso compartido para la comunidad científica. El objetivo es generar la mayor cantidad posible de investigación en un solo año. Su pregunta central: ¿cómo y cuándo deberían desarrollarse e implementarse los LLM para cosechar beneficios sin consecuencias dañinas?
Lo que más preocupa a cada vez más investigadores es la brecha entre los LLM y los que aspiran a serlo. Los LLM son las tecnologías de autocompletado más poderosas del mundo. Al ingerir millones de frases, párrafos e incluso ejemplos de diálogo, aprenden los patrones estadísticos que indican cómo cada uno de estos elementos debe ensamblarse en un orden sensato. Esto significa que los LLM pueden mejorar ciertas actividades: por ejemplo, son buenos para crear chatbots más interactivos y fluidos en las conversaciones con un guion bien establecido.Pero en realidad no comprenden lo que leen o dicen. Además, muchas de las funciones más avanzadas de los LLM solo están disponibles en inglés.
En resumen, solo los más ricos pueden entrenarlos, consume muchísima energía, están creando situaciones monopolísticas, también consume mucho (no es IA verde) su entrenamiento, en fin, en la actualidad no entienden lo que producen (son un puro cálculo de probabilidades de autocompletado sin saber lo que dicen en verdad. Al no ser capaces de entender lo que dicen pueden contener sesgos discriminatorios,perpetuando su utilización la desigualdad de ciertos grupos y atentando directamente contra las premisas más importantes del Derecho Constitucional. Además, el uso indiscriminado de los datos para su entrenamiento, cuyo procesando puede implicar grandes cantidades de datos de carácter sensible y personal que requieren de un tratamiento de privacidad especifico que se puede ver comprometido.
Los Modelos de Lenguaje de Gran Tamaño pueden cometer errores, destacando las llamadas “alucinaciones”: creación de información falsa pero potencialmente convincente, porque se base en fuentes de información que no sean fiables. Por tanto, la supervisión es imprescindible, ya que la información en la que se basa el modelo puede ser errónea, estar sesgada o, incluso, haber sido manipulada.
Desde la perspectiva de la democracia, uno de los riesgos que han señalado los expertos es que los Modelos de Lenguaje de Gran Tamaño seutilizan por los principales buscadores para ofrecer información a los usuarios (en lugar de limitarse a ofrecer links a diversas fuentes de información). Este sistema reduce la información a la que accede de manera rápida y automática la opinión pública, empobrece el debate público y beneficia particularmente a los actores apoyados por los medios con mayor peso político y económico.
Paralelamente, los Modelos de Lenguaje de Gran Tamaño pueden agilizar el trabajo de la administración de justicia. En definitiva, un programa que facilita el análisis, redacción e, incluso, la traducción de textos puede beneficiar enormemente el trabajo de los operadores jurídicos.
AUTORES
- María Isabel González Pascual
- Sonia Martín Revilla