Los límites de los LLM y cómo los remedia el GAR

Términos como Retrieval Augmented Generation (RAG) y Large Language Models (LLM) han atraído mucha atención en los últimos tiempos, y no es de extrañar. El desarrollo de la comunicación entre humanos y máquinas parece haberse convertido en algo completamente normal. Sin embargo, "hablar" solo con modelos lingüísticos como

  • GPT-3
  • GPT-4
  • Llama 2
  • Mistral-7B

no es lo extraordinario de esta situación. Lo extraordinario es que estas máquinas -las LLM en este caso- te entienden. ¿O no?

Pruébalo:

Pida a un modelo lingüístico de su elección que explique el resultado de los últimos sondeos electorales en la tendencia electoral para las elecciones al Bundestag, teniendo en cuenta en su respuesta tanto los efectos positivos como los negativos.

¿Ha funcionado?

En esta entrada del blog, le mostraremos formas de obtener una respuesta fiable a preguntas como éstas.

El límite de los LLM para responder a las preguntas

Comprender el contexto de una petición de un usuario humano no es un simple truco, sino un planteamiento técnicamente muy complejo basado en una combinación de sistemas externos de recuperación (= sistema para recuperar información específica a partir de datos almacenados) y grandes modelos lingüísticos (LLM).

¿Qué dimensión de la información pueden comprender y procesar los LLM y cuál no?

En qué momento los LLM dejan de responder a las preguntas es algo que analizaremos con más detalle en esta entrada del blog. También te mostraremos cómo se puede añadir información en tiempo real a los Large Language Models.

¿Busca más información sobre el uso de los LLM para desarrollar el DocumentGPT de Konfuzio? Lea el blog informativo DocumentGPT - Liberar el poder de los LLM y aprenda más.

Límites concretos de los LLM

Los modelos lingüísticos ofrecen ganancias de productividad y nos ayudan en diversas tareas. Pero, como ya se ha dicho, hay que tener en cuenta que incluso los LLM basados en IA tienen sus limitaciones. Éstas se hacen especialmente evidentes cuando

  • información oportuna o actualizada,
  • Información en tiempo real,
  • información privada,
  • conocimientos específicos del ámbito,
  • conocimientos infrarrepresentados en el corpus de formación,
  • aspectos jurídicos y
  • aspectos lingüísticos

preguntar. Por ejemplo, pregunte a ChatGPT por la tasa de inflación actual en Alemania. Recibirá una respuesta similar a la de la prueba anterior:

"Pido disculpas por la confusión, pero como modelo lingüístico de IA, no dispongo de datos en tiempo real ni de capacidad de navegación. Mis respuestas se basan en la información disponible hasta septiembre de 2021. Por lo tanto, no puedo decirte la tasa de inflación actual en Alemania".

Esta limitación es un problema importante. ChatGPT, como muchos otros LLM, no es capaz de proporcionar información oportuna y contextual que puede ser crucial para tomar decisiones con conocimiento de causa.

Esta causa está detrás de los límites del LLM

Los LLM están "atrapados en el tiempo" y son incapaces de seguir el ritmo de un mundo en rápida evolución:

Los datos de formación e información de ChatGPT tienen un denominado "punto de corte". Este punto en el tiempo o fecha límite está fijado en septiembre de 2021 para este modelo lingüístico. Por tanto, si pregunta a ChatGPT sobre acontecimientos o sucesos ocurridos después de esta fecha, obtendrá

  • información convincente pero completamente falsa, lo que se conoce bajo el término "alucinación" o
  • respuestas poco objetivas con recomendaciones implícitas, tales como

"Mis datos solo llegan hasta septiembre de 2021 y no tengo acceso a información sobre acontecimientos que hayan tenido lugar después de esa fecha. Si necesita información sobre acontecimientos posteriores a septiembre de 2021, le recomiendo que acceda a fuentes de noticias de actualidad o motores de búsqueda para seguir los últimos acontecimientos."

RAG como solución al problema del límite LLM

Aquí es exactamente donde entra en juego la Generación Aumentada de Recuperación (RAG). Este enfoque cierra la brecha de conocimiento de los LLM y les permite proporcionar información contextualmente precisa y actualizada mediante la integración de mecanismos de recuperación externos.

En las siguientes secciones, explicamos el concepto de GAR con más detalle y exploramos cómo la GAR amplía los límites de los LLM.

¿Qué es la Generación Aumentada de Recuperación?

Definición de Generación Aumentada de Recuperación RAG

La Generación Aumentada de Recuperación (RAG, por sus siglas en inglés) es un método de la inteligencia artificial (AI) y la procesamiento del lenguaje naturalcuyo objetivo es mejorar el rendimiento de los LLM mediante la integración de sistemas de recuperación externos. La técnica permite recuperar datos de fuentes externas, por ejemplo, corpus organizativos o bases de datos documentales, y se utiliza para enriquecer los datos utilizados para condicionar el modelo lingüístico (LLM). Prompts.

¿Cómo funciona la Generación Aumentada de Recuperación?

RAG utiliza la potencia de transformadores como GPT-3 o GPT-4 junto con mecanismos externos de recuperación o búsqueda. En lugar de basarse únicamente en el conocimiento interno del modelo, RAG pide a un registro externo normalmente un corpus de documentos, para recuperar la información pertinente. A continuación, estos datos recuperados se utilizan para generar una respuesta contextual.

RAG frente a ajuste fino

RAG permite a los modelos recuperar información de fuentes externas para comprender mejor el contexto de las consultas de los usuarios y generar respuestas más precisas. Amplía las capacidades de los LLM conectándolos a bases de conocimiento u otras fuentes de información.

Puesta a punto es un proceso en el que un modelo base ya preentrenado, como un Gran Modelo Lingüístico, se adapta a tareas o dominios específicos. Para ello, el modelo se entrena con un conjunto limitado de datos específicos de la tarea. Durante el proceso de ajuste, el modelo aprende la mejor manera de centrarse en una tarea o dominio específico y optimiza sus capacidades para esa aplicación concreta.

La principal diferencia entre RAG y Finetuning radica en su funcionamiento y finalidad

La GAR se centra en mejorar el procesamiento del lenguaje natural integrando información externa, lo que permite al modelo comprender mejor el contexto de las consultas y generar respuestas más precisas. Por su parte, el perfeccionamiento tiene por objeto adaptar específicamente un modelo de base preentrenado a una tarea o un dominio concretos a partir de un conjunto limitado de datos de entrenamiento.

Ambos métodos son útiles, pero tienen ámbitos de aplicación y objetivos diferentes. El GAR mejora las capacidades de los LLM integrando información externa, mientras que el ajuste fino pretende adaptarse a tareas o dominios específicos.

Comparación RAG: ventajas, desventajas y alternativas

La GAR ofrece una alternativa rentable y eficaz a los métodos tradicionales, como el preentrenamiento o el ajuste fino de los modelos de base. En esencia, la GAR permite a los grandes modelos lingüísticos acceder directamente a datos específicos cuando responden a solicitudes concretas. Para mostrar las diferencias entre la GAR y las alternativas, considere la siguiente figura.

El gráfico del radar compara tres métodos diferentes:

  • LLM preformado,
  • LLM preentrenado + ajustado y
  • Preentrenado + RAG LLM.
Comparación RAG LLM

Este diagrama de radar es una representación gráfica de datos multidimensionales en la que cada método se evalúa en función de varios criterios, que se muestran como ejes en el diagrama. Los criterios son

  • Costes,
  • Complejidad,
  • Conocimientos específicos del ámbito,
  • Actualidad,
  • Explicabilidad y
  • Evitación de alucinaciones.

Cada método se representa como un polígono en el diagrama, cuyos vértices corresponden a los valores de estos criterios para el método respectivo.

Por ejemplo:

El método "LLM preentrenado" tiene valores relativamente bajos para "coste", "complejidad", "conocimiento específico del dominio" y "evitación de alucinaciones", pero un valor más alto para "puntualidad" y "explicabilidad".

El método "Preentrenado + LLM afinado", por otro lado, tiene valores más altos para "Coste", "Complejidad", "Conocimiento específico del dominio" y "Evitar alucinaciones", pero valores más bajos para "Puntualidad" y "Explicabilidad". Por último, el método "Preentrenado + RAG LLM" presenta un patrón único con valores altos para "Actualidad", "Explicabilidad" y "Conocimiento específico del dominio".

El método LLM Preentrenado + RAG se caracteriza por un conocimiento específico del dominio, información actualizada, explicabilidad y evitación de alucinaciones. Esto se debe probablemente a que el enfoque RAG permite al modelo explicar la información mediante estructuras gráficas, lo que puede mejorar su comprensión, evitar alucinaciones y proporcionar respuestas más transparentes y precisas en dominios específicos.

Generación de respuestas contextuales y temáticas con "cómo hacerlo" RAG.

El proceso de Generación Aumentada de Recuperación (RAG) consta de los 3 pasos siguientes:

  1. Crear una base de datos vectorial a partir de datos específicos de la zona:
    El primer paso para implantar el GAR es crear un Base de datos vectorial a partir de los datos propios de su dominio. Esta base de datos sirve como fuente de conocimiento de la que se nutre RAG para proporcionar respuestas contextualmente relevantes. Para crear esta base de datos vectorial, siga los pasos que se indican a continuación:
  2. Conversión en vectores (incrustaciones):
    Para que los datos específicos de un dominio puedan utilizarse en la RAG, es necesario convertirlos en vectores matemáticos. Este proceso de conversión se consigue haciendo pasar los datos por un modelo de incrustación, que es un tipo especial de modelo de lenguaje amplio (LLM). Estos modelos de incrustación son capaces de convertir distintos tipos de datos, como texto, imágenes, vídeo o audio, en matrices o grupos de valores numéricos. Y lo que es más importante, estos valores numéricos reflejan el significado del texto de entrada, del mismo modo que otra persona entiende la esencia del texto cuando lo dice en voz alta.
  3. Creación de bases de datos vectoriales:
    Una vez obtenidos los vectores que representan los datos específicos de su dominio, cree una base de datos de vectores. Esta base de datos sirve como repositorio de información semánticamente rica codificada en forma de vectores. En esta base de datos, RAG busca elementos semánticamente similares basándose en las representaciones numéricas de los datos almacenados.

El siguiente diagrama ilustra cómo crear una base de datos vectorial a partir de sus datos propietarios específicos de dominio. Para crear su base de datos vectorial, convierta sus datos en vectores pasándolos por un modelo de incrustación. En el siguiente ejemplo, convertimos documentos Konfuzio (Documentos Konfuzio) que contienen la información más reciente sobre Konfuzio. Los datos pueden consistir en texto, imágenes, vídeos o audios:

límites-llm-rag
Cómo crear una base de datos vectorial a partir de los datos propios de su zona (Base de datos vectorial y los Documentos Konfuzio)

Integración de los conocimientos recuperados (contexto) en los LLM

Ahora que ha construido una base de datos vectorial con conocimientos específicos del dominio, el siguiente paso es integrar estos conocimientos en los LLM. Esta integración se realiza a través de la llamada "ventana de contexto".

Piense en la ventana de contexto como el campo de visión del LLM en un momento dado:

Cuando el GAR está en acción, es como sostener un mapa de puntos críticos desde la base de datos específica del dominio hasta el LLM.

Esta ventana contextual permite a la LLM acceder a datos importantes e integrarlos. Así se garantiza que sus respuestas no sólo sean coherentes, sino también contextualmente correctas.

Al incorporar conocimientos específicos del dominio en la ventana contextual del LLM, RAG aumenta la calidad de las respuestas generadas. RAG permite al LLM recurrir a la gran cantidad de información almacenada en la base de datos vectorial. Esto hace que sus respuestas estén mejor informadas y sean más pertinentes para las consultas del usuario.

En el diagrama siguiente ilustramos el funcionamiento del GAR utilizando el ejemplo de "Documentos Konfuzio":

Flujo de trabajo RAG de LLM con documentos Konfuzio

Con la ayuda de nuestro GAR Flujos de trabajo podemos forzar a nuestro Modelo de Lenguaje Grande (generador) a ceñirse al contenido de nuestra base de conocimientos (Documentos Konfuzio) más relevante para responder a la consulta del usuario.

Et voilà, el resultado: Recuperación generación aumentada ¡! ✅

Actualización - Es bueno saberlo

Por un lado, Konfuzio Azure para OCR, por otro lado la API de Azure permite hoy en día la conversión de documentos en Markdown. Esto a su vez significa que Konfuzio puede utilizar esta función para convertir sus documentos en Markdown y luego introducirlos en la parte de generación, que se basa en un LLM, en RAG.

Esto puede mejorar la precisión y el rendimiento de su canalización RAG.

La razón de ello es la propiedad que estos Representación Markdown proporciona más información y contexto sobre los documentos que antes, en forma de tablas, imágenes, casillas de verificación, etc.

Konfuzio Azure OCR Markdown
Fuente: comunidadtecnologica.microsoft.com

Conclusión

La creciente integración de los Grandes Modelos Lingüísticos (LLM) en nuestra vida cotidiana ha aportado sin duda muchas ventajas, pero también tiene sus limitaciones. El reto es que los LLM, como GPT-3, GPT-4, Llama 2 y Mistral-7B, tienen dificultades para proporcionar información oportuna y contextual, así como conocimientos específicos del dominio. Esto supone un obstáculo importante, sobre todo cuando se requieren respuestas precisas y pertinentes.

La Generación Aumentada de Recuperación (RAG) está demostrando ser una solución prometedora en este sentido. La RAG permite integrar sistemas de recuperación externos en grandes modelos lingüísticos, lo que permite a estos modelos acceder a amplias bases de conocimientos e información actualizada. Esto les permite comprender mejor las consultas definidas por los usuarios y ofrecer respuestas más precisas y contextuales.

¿Por qué utilizar la GAR y no otros métodos alternativos?

  1. El GAR permite disponer de información en tiempo real y de conocimientos actualizados, lo que resulta especialmente crucial en sectores en rápida evolución y para tomar decisiones con conocimiento de causa.
  2. RAG permite integrar conocimientos específicos del dominio en la generación de respuestas. Esto es esencial cuando se requieren conocimientos especializados.
  3. En contraste con algunos enfoques alternativos, el GAR ofrece un método más transparente y comprensible para responder a las preguntas, ya que se basa en datos y hechos existentes.
  4. RAG minimiza la probabilidad de que se produzcan informaciones falsas o inventadas accediendo a fuentes externas fiables.

En resumen, la Generación Aumentada de Recuperación colma las lagunas en las capacidades de los LLM y permite dar respuestas fiables a preguntas complejas. Esto lo convierte en un método prometedor para el futuro de la comunicación y el apoyo de la inteligencia artificial en una amplia gama de aplicaciones.

¿Tiene alguna pregunta o está interesado en una demostración del Konfuzio ¿Infraestructuras?

Escríbanos un mensaje. Nuestro equipo de expertos estará encantado de asesorarle.








    "
    "
    Avatar de Mohamed Dhiab

    Últimos artículos