Modelos PNL - Desarrollo rápido de genios artificiales del lenguaje

El hecho de que la inteligencia artificial esté sacudiendo la informática y los medios de comunicación desde hace algunos años se debe principalmente a los avances en un subámbito concreto de la tecnología: el Procesamiento del Lenguaje Natural (PLN) está revolucionando la forma en que se comunican los humanos y las máquinas. La generación de textos coherentes basada en la IA es sólo una de las posibilidades inimaginables que incluso los expertos están empezando a comprender. Una cronología de los modelos de PNL más significativos ofrece información sobre el pasado, el presente y el futuro del procesamiento automatizado del lenguaje.

¿Qué son los modelos de PNL?

PNL significa Procesamiento del lenguaje natural y describe las técnicas de IA que se ocupan del procesamiento del lenguaje natural. Los campos de aplicación más comunes son el análisis, la interpretación, el resumen, la traducción y la generación de textos. Sin embargo, el tratamiento algorítmico del lenguaje hablado también se está convirtiendo en una disciplina cada vez más importante en este subcampo de la inteligencia artificial. Dado que el lenguaje humano está salpicado de irregularidades, ambigüedades e influencias humorísticas y emocionales, para el PLN son necesarios complejos modelos de IA, los llamados modelos PLN, que, sin embargo, siguen acercándose rápidamente a sus límites. Fronteras golpe.

Los modelos de PNL constituyen el núcleo de los correspondientes sistemas o aplicaciones de IA. Suelen basarse en redes neuronales artificiales. Se trata de agrupaciones de nodos de entrada y salida conectados (neuronas) que pueden describirse matemáticamente como una función recursiva. Mediante la transmisión de señales de entrada a través de la red, es posible preentrenar modelos modernos de PNL utilizando grandes cantidades de texto. El reajuste posterior de las neuronas para tareas específicas se denomina ajuste fino. En este proceso, se utilizan conjuntos de datos más pequeños que corresponden a las sutilezas del nuevo tipo de tarea. A partir de ahí, se pueden resolver toda una serie de ellas.

modelo simple de red neuronal para la pnl
Representación simplificada de una red neuronal

¿Cómo funciona el Procesamiento del Lenguaje Natural?

Tan versátil como el lenguaje humano, tan diversos son los enfoques para hacerlo comprensible para los algoritmos. He aquí algunas estrategias especialmente relevantes:

  1. Segmentación de frases

    Al dividir las frases en segmentos más pequeños, es más fácil clasificar las partes de las frases. Esto las hace representables matemáticamente y los algoritmos pueden captar mejor el contexto respectivo.

  2. Análisis sintáctico

    Un examen de las funciones sintácticas y las relaciones de las palabras (por ejemplo, sujeto, objeto, predicado) permite llegar a una conclusión sobre su significado. La base son las relaciones correctamente asignadas en los datos de entrenamiento. Un modelo de PNL común es Palabra2vec.

  3. Análisis semántico:

    Del mismo modo, entidades y relaciones semánticas como el sinónimo o el antónimo pueden dar pistas sobre el significado exacto de la palabra.

  4. Análisis del sentimiento:

    Categorizaciones como "negativo", "positivo" o "neutro" permiten tomar decisiones o acciones significativas. Esto es útil, por ejemplo, cuando se analizan las opiniones de los clientes.

Las técnicas concretas que se utilizan aquí son, por ejemplo, vectorización, análisis sintáctico, clasificadores o Desambiguación del sentido de las palabras. A menudo, los enfoques individuales por sí solos no permiten una comprensión completa del texto. Por ello, en muchos casos se combinan, ya sea mediante varios o mediante modelos de PNL especialmente versátiles.

Cronología de los modelos de PNL más importantes

En realidad, el Procesamiento del Lenguaje Natural tiene sus orígenes en los años 50: en un experimento realizado en la Universidad de Georgetown en colaboración con IBM, los investigadores consiguieron traducir automáticamente más de 60 frases rusas al inglés. Después, la nueva tecnología no estuvo a la altura de las expectativas durante mucho tiempo. En los años 90, la conexión con algoritmos de aprendizaje automático como Árboles de decisión a una mayor aplicabilidad, pero sólo para tareas concretas. Los modelos de PNL no se han dado a conocer hasta los últimos años. ¿Por qué?

El nacimiento de los Transformers

Los transformadores son una forma específica de modelos de PNL cuya arquitectura especial fue introducida por primera vez por Google en 2017. Se basa en un Inserción-para vectorizar las secuencias de entrada, así como codificadores y descodificadores conectados detrás de ellas. Los denominados módulos de atención también desempeñan un papel especialmente importante (véase el título del artículo "Atención es todo lo que necesitas"). Esto permite calcular correlaciones entre las unidades introducidas, lo que facilita la determinación de las relaciones entre palabras y contextos.

El mecanismo de atención se basa en procesos inconscientes de la percepción del habla humana, mediante los cuales se da un peso especial a las palabras para el significado de la frase, independientemente de su orden. Esto hace que los Transformers sean superiores a los modelos de funcionamiento puramente secuencial como LSTM o Seq2seq superior. La situación es similar en comparación con modelos de incrustación anteriores como Word2vec. La particularidad de los transformadores es que, gracias a su arquitectura versátil, pueden asumir las tareas de varios modelos PNL individuales e incluso superarlos en cada caso.

Arquitectura de un modelo de lenguaje de transformación
Arquitectura del transformador. Fuente: Atención es todo lo que necesitas

ELMo

El siguiente gran avance en el Procesamiento del Lenguaje Natural 2018 no fue aún un representante de los transformadores, pero influyó en el desarrollo de un candidato correspondiente. Embeddings from Language Models (ELMo) utiliza representaciones de palabras y tiene en cuenta factores complejos como la sintaxis y la semántica, así como diversas variaciones del contexto. El modelo lingüístico los determina a partir de las palabras circundantes, por lo que es especialmente sensible a las sutilezas lingüísticas. Además, gracias a su amplio preentrenamiento con más de mil millones de palabras, ELMo se convirtió rápidamente en la tecnología más avanzada para muchas tareas de PNL.

Arquitectura:

  • Red neuronal convolucional (CNN)
  • Modelo lingüístico bidireccional compuesto por dos capas
  • Módulos LSTM conectados en serie
  • 93,6 millones de parámetros

Habilidades: Traducciones, resúmenes de textos, respuesta a preguntas, análisis de estados de ánimo.

GPT-1

En 2018, el primer proyecto del transformador generativo preentrenado de OpenAI atrajo una gran atención en los círculos profesionales. Como reacción directa a la arquitectura Transformer presentada por Google, el concepto se amplió para incluir el preentrenamiento generativo. A diferencia de la práctica anterior, el modelo de PNL se sometió a un unprocedimiento de aprendizaje supervisado. El conjunto de entrenamiento estaba formado por el texto de más de 11.000 libros. Con ello se pretendía que GPT comprendiera contextos más largos y facilitara la producción de sus propios pasajes de texto. Esta capacidad es, con diferencia, la mayor innovación con respecto a los modelos lingüísticos anteriores. GPT-1 fue el pistoletazo de salida de una carrera sin precedentes hacia un rendimiento cada vez mejor en PNL a través de Transformer.

Arquitectura:

  • Transformador Decodificador Modelo
  • 117 millones de parámetros
  • 12 Capa 
  • Omisión de la parte del codificador propuesta por Google

Habilidades: Generar y completar textos coherentes, traducciones, responder a preguntas.

BERT

Por supuesto, Google también tuvo que idear su propio modelo de transformador ese mismo año: BERT (Bidirectional Encoder Representations from Transformers) utiliza un enfoque de entrenamiento bidireccional, de modo que es posible una comprensión contextual más profunda que con el recorrido unilateral de secuencias. Aquí se nota la influencia de ELMo en los desarrollos de transformadores. Para que este método pueda aplicarse en absoluto a otros modelos de PNL, los investigadores introdujeron también una nueva técnica denominada Modelización del lenguaje enmascarado (MLM) antes. BERT fundó así toda una familia de modelos lingüísticos especialmente potentes que incluso se han implementado en Google Search. 

Arquitectura: 

  • Transformador Codificador Modelo
  • Capa de clasificación adicional (para MLM)
  • BERTbase: 12 capas, 110 millones de parámetros
  • BERTlarge: 24 capas, 340 millones de parámetros

Habilidades: Captación de contextos largos, resumen y generación de textos, predicción de palabras.

GPT-4

En 2023, OpenAI echa la vista atrás a toda una serie de modelos GPT, que también se pusieron a disposición del público con ChatGPT. Superaron a sus predecesores en cuanto a complejidad, cantidad de texto utilizado en el preentrenamiento y, en última instancia, rendimiento en diversas tareas de PNL. GPT-3 ya se había sometido a un preentrenamiento a partir de 570 GB de texto y podía utilizar 175.000 millones de parámetros. GPT-4 representa un nuevo y significativo aumento, pero se diferencia especialmente por su capacidad para procesar también imágenes. Lo que empezó como un bot de texto puro inaugura ahora una era de transformadores con capacidades mejoradas en forma de Gran Modelo Multimodal. Por otra parte, la generación de textos extensos, coherentes y absolutamente convincentes se ha convertido desde hace tiempo en algo natural.

Arquitectura: Hasta ahora, OpenAI ha mantenido en secreto la estructura exacta del modelo lingüístico, probablemente porque se puede replicar, como dicen los expertos. Dylan Patel y Gerald Wong analizar. Se calcula que GPT-4 tendrá alrededor de 1,6 billones de parámetros en 120 capas, 10 veces más que GPT-3. La empresa espera que sus competidores, como Meta and Co.

Habilidades: Análisis de textos, resumen y traducción de textos, generación de textos coherentes en segundos, respuestas similares a las humanas, generación de código, creación de un sitio web a partir de bocetos, análisis de gráficos, respuesta a preguntas sobre imágenes.

rendimiento de GPT-4 y GPT-3.5 en tareas de PNL
Comparación del rendimiento de GPT-4 y GPT-3.5 en diferentes tareas de PNL. Fuente: OpenAI

PaLM 2

A partir de mayo de 2023, el bot de texto Bard de Google ya no se basa en el Large Language Model LaMDA, sino en PaLM 2. El modelo de última generación está equipado con nuevas y amplias funcionalidades de codificación, compatibilidad con Google Workspace y razonamiento lógico. El conjunto de entrenamiento utilizado incluye grandes cantidades de texto de artículos científicos y sitios web. Además, se ha mejorado el soporte multilingüe, que ahora incluye más de 100 idiomas. PaLM 2 está disponible en cuatro tamaños diferentes, en función del dispositivo final. Con todo, queda claro cómo Google se está centrando en implementaciones lo más adecuadas posible para el uso cotidiano con el fin de garantizar un uso exhaustivo. Los modelos de PNL han alcanzado así el centro de la aplicabilidad general.

Arquitectura: Transformador, por lo demás poco conocido. Es probable un aumento significativo respecto a los 540.000 millones de parámetros del predecesor.

Habilidades: Más Mejora en la mayoría de las tareas de PNL, programación, multilingüismo, lógica, implementaciones de Google.

Conclusión y perspectivas

Desde hace algunos años, el Procesamiento del Lenguaje Natural es una de las tecnologías de IA más significativas debido a las nuevas posibilidades del tratamiento automatizado del lenguaje. Esto se aplica en particular a la generación y traducción de texto. Un avance extremadamente importante en esta dirección fue la presentación de la arquitectura Transformer por parte de Google en 2017, que pronto experimentó una implementación técnica exitosa con modelos lingüísticos como GPT-1 y BERT en conexión con el enfoque bidireccional de ELMo. Además, el uso del aprendizaje no supervisado contribuye al aumento exponencial del alcance de la formación, la complejidad y el rendimiento de los modelos posteriores. Debido a su creciente valor añadido, los costes de formación suelen desempeñar un papel secundario. Por tanto, es muy probable que estas tendencias continúen.

tecnología a lo largo del tiempo aplicada a modelos lingüísticos

Los avances posteriores también se centran en eliminar los errores y puntos débiles de los modelos lingüísticos. Por ejemplo, en los ámbitos de la puntualidad, la lógica y la aritmética. Una posible solución a algunos problemas sería el uso automatizado de aplicaciones externas, por ejemplo mediante metas Toolformer. Además de aplicaciones cada vez más adecuadas para el uso cotidiano, también son previsibles ámbitos de aplicación más especializados. Por ejemplo, Med-PaLM 2 ya se está probando con fines médicos. Los transformadores seguirán siendo la base técnica en un futuro previsible. Sin embargo, no se puede descartar que en algún momento también tengan que dar paso a un nuevo tipo de modelo de PNL.


Si desea obtener más información sobre el Procesamiento del Lenguaje Natural y el valor añadido de esta tecnología para las empresas, utilice el enlace Formulario de contacto. Nuestros expertos esperan con interés el intercambio.

"
"
Avatar de Tim Filzinger

Últimos artículos