LLM multimodales - Más allá de los límites del lenguaje

Poco tiempo después del triunfo de los grandes modelos lingüísticos, se ha logrado otro avance decisivo en inteligencia artificial: Los grandes modelos lingüísticos multimodales presentados el año pasado son capaces de procesar elementos visuales además de texto. Esto nos acerca un paso más a la tan soñada IA general.

El aprendizaje profundo multimodal desempeña aquí un papel clave. Como especialidad aún joven del aprendizaje automático, ya está logrando resultados impresionantes en el reconocimiento de objetos, así como en el análisis del habla y de imágenes. Esto ofrece una amplia gama de oportunidades, especialmente en el campo del procesamiento inteligente de documentos. Ahora está claro lo que es realmente posible, pero también dónde están los nuevos límites.

Otra dimensión de la IA generativa

Antes era la norma común: para resolver diversas tareas del procesamiento automatizado del lenguaje (PLN) se utilizan grandes modelos lingüísticos (LLM) preentrenados con un ajuste fino específico del dominio. La capacidad básica de reconocer relaciones complejas en el lenguaje humano procede del análisis de inmensas cantidades de texto como parte de un proceso de aprendizaje no supervisado. Las posibilidades resultantes en términos de análisis, generación, traducción y resumen de texto fueron sin duda suficientes para poner patas arriba el sector tecnológico: piense en ChatGPT. Sin embargo, sólo modelizan una dimensión, muy importante pero única, de la percepción humana.

Los LLM multimodales superan esta limitación complementando las capacidades de los modelos convencionales con el procesamiento de información multimodal. Esto incluye imágenes, por ejemplo, pero también formatos de audio y vídeo. Esto les permite resolver tareas mucho más completas y, en muchos casos, ni siquiera es necesario personalizarlos especialmente. Por tanto, la combinación con modelos de visión, que hasta ahora ha sido a menudo necesaria, podría perder considerablemente importancia. En conjunto, se puede reconocer aquí un avance significativo, que se concreta en los siguientes avances fundamentales:

  • Aproximación a la percepción humana mediante el procesamiento centralizado de distintos tipos de información
  • Mayor facilidad de uso e interacción más flexible mediante elementos visuales.
  • Resolución de tareas novedosas sin ajuste fino por separado
  • Sin limitaciones en el ámbito del procesamiento del lenguaje natural
formato de datos e imágenes
La gama de formatos compatibles podría aumentar aún más.

¿Cómo funcionan los LLM multimodales?

Los LLM multimodales siguen utilizando la arquitectura Transformer introducida por Google en 2017. En el caso de los Evolución en los últimos años ya ha quedado claro que son posibles amplias ampliaciones y reinterpretaciones. Esto se aplica especialmente a la elección de los datos de entrenamiento y los procedimientos de aprendizaje, como ocurre en este caso.

Aprendizaje profundo multimodal

Esta forma especial de máquina y Aprendizaje profundo se concentra en el desarrollo de algoritmos especiales cuya combinación permite procesar distintos tipos de datos. Para ello se siguen utilizando redes neuronales que, gracias a su profundidad, también pueden tratar contenidos de información especialmente elevados, como los que se encuentran sobre todo en los contenidos visuales. Esto también permite un proceso de aprendizaje más intensivo. Por lo tanto, el aprendizaje profundo multimodal no solo permite manejar entradas diversificadas, sino que también aumenta la velocidad y el rendimiento. Sin embargo, uno de los mayores retos reside en el suministro de los volúmenes de datos necesarios.

Sustitución del clásico ajuste fino

Además, en comparación con paradigmas anteriores, se utilizan métodos novedosos como el llamado "ajuste de instrucciones". Esto describe un ajuste fino de los LLM preentrenados para toda una serie de tareas - diferente de lo habitual hasta ahora. El resultado es una aplicabilidad claramente generalizada. Esto significa que los modelos correspondientes también están preparados para tareas hasta ahora desconocidas sin necesidad de más formación supervisada ni de innumerables indicaciones.

Modelo lingüístico perfeccionado
Fuente: Los modelos lingüísticos perfeccionados aprenden a cero

La versatilidad de los datos que se transmiten es de enorme importancia para este proceso. Los mecanismos de codificación correspondientes se encargan no sólo del lenguaje, sino también del tratamiento de contenidos de imagen y vídeo. De este modo, el modelo aprende a reconocer las conexiones entre el texto y otras formas de contenido. Así, puede reaccionar a la información visual con explicaciones o interpretaciones lingüísticas.

Las conclusiones extraídas del primer estudio sobre este tema (A Survey on Multimodal Large Language Models, Yin, Fu et al., 2023) indican un gran potencial para un área de aplicación generalizada de la IA. Esto no ha escapado a la atención de las investigaciones posteriores: Con DocLLM Se ha desarrollado una extensión de los modelos lingüísticos tradicionales que es adecuada para el lenguaje multimodal. Comprensión de documentos incorpora principalmente la estructura de disposición espacial. Estos planteamientos abren nuevas y amplias posibilidades.

mllm de código abierto
Actualmente existen varias demos de código abierto que se acercan a las capacidades de los buques insignia comerciales.

Un cambio de rumbo en el tratamiento inteligente de documentos

El tratamiento automatizado de documentos empresariales es un proceso complejo, pero cada vez más fácil de mapear gracias a la inteligencia artificial. Hasta la fecha, los grandes modelos lingüísticos han desempeñado un papel especialmente importante en el tratamiento automatizado del texto que contienen. La mayor dificultad radica en que los documentos suelen estar disponibles en forma visual, por lo que inicialmente requieren técnicas adicionales como Reconocimiento óptico de caracteres. Lo mismo puede decirse de la recopilación de información sobre el trazado, para la que hasta ahora la mayoría Visión por ordenador se utiliza. Los LLM multimodales pueden simplificarse en gran medida. Las siguientes capacidades ayudan a conseguirlo:

  • Genere resultados a partir de entradas visuales, por ejemplo, resuma el contenido de un documento o una imagen empresarial cargados.
  • Análisis de documentos nuevos sin ajuste adicional
  • Consultas/funciones de consulta, por ejemplo, nombrar los puntos de coste de una factura previa solicitud.
  • Análisis sintáctico de documentos y salida de los datos en varios formatos, por ejemplo JSON
  • Multilingüismo sin traducción separada; por ejemplo, analizar un documento inglés y responder a preguntas sobre él en alemán.

Se acelera el análisis de documentos

En comparación con los programas informáticos de IDP basados en grandes modelos lingüísticos convencionales, los LLM multimodales pueden aumentar considerablemente la velocidad del proceso. Esto empieza ya en la fase de implementación, que requiere menos tiempo gracias a la menor formación necesaria. A ello contribuye también la eliminación de aplicaciones empresariales altamente especializadas, que antes debían integrarse para la aplicabilidad individual de los modelos. A esto se añade el aumento del rendimiento, que se ha ido ampliando con prácticamente cada generación de grandes modelos de IA. Al mismo tiempo, los desarrolladores garantizan un manejo más intuitivo, que evita errores y bucles de corrección excesivos durante el procesamiento posterior.

La alternativa - Cómo lee los documentos DocumentGPT

En la búsqueda de alternativas al conocido Google Text Bot Bard, tiene sentido fijarse en ChatGPT y en el nuevo LLM multimodal GPT-4 de OpenAI. En 2023, el modelo sigue respondiendo con frecuencia a la entrada visual (por ejemplo, un documento de identidad) con mensajes de error como "Lo siento, no puedo ayudarle con eso". Mientras tanto, el objeto se reconoce, pero la extracción de datos del DNI sigue sin tener éxito. Además, existen ciertas limitaciones relacionadas con la precisión de los documentos y objetos especializados, por ejemplo en el ámbito médico. También falta un acceso especializado a los archivos empresariales que permita una utilización productiva en las empresas.

¿O no? DocumentoGPT es una tecnología de IA de Konfuzio que permite la extracción óptica de etiquetas y etiquetado. A continuación, la API GPT-4 permite el procesamiento del habla mediante el último LLM de OpenAI. No se permite el acceso a las funcionalidades multimodales a través de la API. Por lo tanto, las funcionalidades de OCR visual de Konfuzio deben extraer primero los datos y, a continuación, enviarlos únicamente para el procesamiento de voz puro. En el otro extremo, las API y el SDK de Konfuzio pueden utilizarse para una integración perfecta en los flujos de trabajo existentes, superando los obstáculos actuales.

Pruebe DocumentGPT en el mercado Konfuzio y compruébelo usted mismo. Puede registrarse gratuitamente en app.konfuzio.com y solicitar acceso al potente modelo de IA.

DocumentoGPT
DocumentGPT tiene éxito donde ChatGPT ha fracasado hasta ahora.

Limitaciones de los LLM multimodales

Con cada avance tecnológico se desplazan los límites de lo posible, pero no se eliminan por completo. Los nuevos modelos de IA, en particular, suelen tener una aplicabilidad más generalizada, pero a menudo a costa de errores y puntos débiles en áreas concretas. Las primeras pruebas de los modelos revelan en qué limitaciones podría centrarse la investigación en un futuro próximo:

Baja precisión de los datos: La extracción incorrecta de datos puede tener consecuencias problemáticas para las empresas.

Alucinaciones: No menos problemática es la aparición de datos que no están presentes en absoluto en un documento.

error de cálculo: Incluso los primeros modelos de lenguaje de gran tamaño tenían problemas en algunos casos hasta con la aritmética básica. Sin embargo, los documentos financieros importantes dejan poco margen para el error.

Falta de especialización: En Una mayor aplicabilidad generalizada aún no puede superar a los modelos de ajuste fino en todos los ámbitos.

Procesamiento de imágenes de alta resolución: A estudio actual sugiere que, en la actualidad, los LLM multimodales siguen sin ser capaces de analizar la información de las imágenes en alta resolución.

Enfoques

Aunque el estado experimental de los grandes modelos lingüísticos multimodales actuales apenas permite encontrar soluciones integradas para los puntos débiles existentes hasta ahora, ya se pueden prever estrategias complementarias. Al fin y al cabo, la idea básica de optimizar el rendimiento de los modelos de IA no es nada nuevo. Por ejemplo, los siguientes enfoques podrían ayudar a obtener buenos resultados en el tratamiento de documentos y textos, incluso con el estado actual de desarrollo:

Humano en el bucle es un concepto valioso que previene errores y mejora el rendimiento futuro del modelo mediante anotaciones. Para ello, los miembros del equipo humano realizan periódicamente un bucle de retroalimentación. Encontrará más información en esta entrada del blog.

Sistemas expertos pueden sustituir a esta lógica humana en la resolución de problemas al estar programados para una concatenación de pasos de investigación y principios de actuación.

Esto crea Modelos híbridos, que permiten un alto grado de automatización a pesar de la propensión a errores del modelo lingüístico subyacente.

Por ello, es especialmente importante aplicar un Lógica empresarialque se aplica de diversas maneras -por el hombre o la máquina- como capa de validación en torno al nuevo sistema.

Modelos complementarios como DocLLM pueden añadir más capacidades a los MLLM existentes para resolver, al menos parcialmente, los problemas existentes. Otro ejemplo actual es Mono, que se encarga de los límites si la resolución de la imagen es demasiado alta.

Para no perder de vista estos conceptos, la introducción de una solución "todo en uno" es una buena idea: Konfuzio es una plataforma para el tratamiento inteligente de documentos que combina principios de lógica empresarial y grandes modelos lingüísticos como interfaz entre el ser humano y la IA. El uso flexible de tecnologías como la visión por ordenador o el reconocimiento óptico de caracteres se ha optimizado a lo largo de los años y se adapta siempre a los últimos avances (multimodales).

Conclusión

Gracias a la capacidad de procesar contenidos multimodales y combinarlos con texto, los grandes modelos lingüísticos han alcanzado una nueva dimensión de la IA generativa. Esto conduce a la superación de fronteras que antes estaban claramente definidas en el campo del procesamiento del lenguaje natural. Los LLM multimodales no sólo son capaces de comprender imágenes y vídeos, sino que también ofrecen un mayor grado de flexibilidad en el procesamiento del habla. De ello se encargan métodos innovadores como el "ajuste de instrucciones", que no se limita a tareas individuales y, por tanto, hace superfluo en muchos casos el entrenamiento supervisado posterior.

Esta innovación ofrece un potencial especialmente grande para el tratamiento inteligente de documentos. Hasta ahora, esto dependía en gran medida de la puesta a punto y la combinación con aplicaciones empresariales especializadas y modelos de visión. Sin embargo, los LLM multimodales aún no pueden sustituir completamente este enfoque. Siguen siendo necesarios mecanismos de validación independientes para evitar imprecisiones y errores. Todo lo demás es probablemente una cuestión de tiempo, a la que pronto darán respuesta los desarrollos que ya están en marcha.

¿Quiere saber más sobre las posibilidades de los LLM multimodales para empresas? Póngase en contacto con Contacto a nosotros.

"
"
Avatar de Tim Filzinger

Últimos artículos