Varias herramientas de documentos delante del portátil con la mano

Comprensión de documentos: técnicas para comprender documentos

Janina Horn

La comprensión de documentos es un campo que abarca una serie de técnicas y tecnologías destinadas a extraer información de documentos no estructurados y transformarla en datos estructurados. Aunque la visión por ordenador y el procesamiento del lenguaje natural (PLN) son componentes importantes de la comprensión de documentos, se trata de un dominio distinto que requiere una combinación de ambos.

Visión por ordenador se centra en los aspectos visuales de un documento, como las imágenes y la maquetación, y utiliza algoritmos para extraer información de estos elementos. PNL por su parte, se ocupa de los aspectos lingüísticos de un documento y utiliza técnicas como el reconocimiento de textos y el análisis de sentimientos para procesar el contenido del texto.

Aunque tanto la visión por ordenador como la PNL pueden ser eficaces en sus respectivos campos, por sí solas no pueden proporcionar una comprensión completa de un documento. Por ejemplo, un documento puede contener imágenes que transmitan información importante, mientras que el contenido textual puede ser limitado o irrelevante. En estos casos, la combinación de visión por ordenador y PLN es esencial para obtener una comprensión completa del documento.

Definición de comprensión de documentos

Comprensión de documentos - Definición

La comprensión de documentos es el proceso de aprendizaje que consiste en extraer y convertir información significativa de documentos no estructurados o semiestructurados en datos estructurados para su análisis y uso. Este proceso se apoya en tecnologías que utilizan el aprendizaje automático, la PNL y la visión por ordenador o incluso el tradicional OCR para automatizar la extracción de información.

Hoy en día, varios proveedores ofrecen distintos tipos de IA. Pueden ser, por ejemplo, visión por ordenador, PNL (comprensión del lenguaje natural) o formas sencillas de aprendizaje automático. 

Esto plantea una pregunta: ¿por qué la IA documental, que implica una cierta comprensión de los documentos, es mucho más difícil de aplicar que la simple visión por ordenador o la PLN, que sólo tienen en cuenta el componente visual o semántico de la información?

La respuesta es sencilla: una IA capaz de comprender documentos debe trabajar en dos dimensiones. A menudo denominada IA híbrida, esta IA combina información semántica y visual para comprender, teclear o incluso procesar el contenido de los documentos como los humanos.

3 símbolos de papel diferentes sobre fondo verde

¿Qué ocurriría si utilizáramos el ejemplo de una factura?

Tomemos una factura de un proveedor que contiene información sobre los productos o servicios adquiridos, el importe total adeudado y la fecha de vencimiento del pago. En este escenario, tanto la visión por ordenador como la inteligencia artificial PNL desempeñan un papel importante en la comprensión de los documentos.

La IA de visión por ordenador puede utilizarse para identificar y extraer información como el número de factura, la fecha, el nombre del proveedor y la dirección. También puede utilizarse para procesar el diseño visual de la factura, por ejemplo, para identificar tablas y columnas y extraer los datos pertinentes.

La visión por ordenador no basta por sí sola para comprender completamente la factura. Por ejemplo, no puede extraer los productos o servicios concretos que se compraron ni la información sobre precios asociada a cada artículo. Aquí es donde entra en juego la IA NLP.

La inteligencia artificial PNL puede utilizarse para identificar y extraer información como los nombres de los productos o servicios adquiridos, las cantidades y los precios. También puede utilizarse para procesar la descripción y las especificaciones de cada artículo y extraer información relevante como la unidad de medida, el tipo impositivo y cualquier descuento.

En resumen, un cálculo requiere una combinación de IA de visión por ordenador y PNL para proporcionar una comprensión exhaustiva del documento. Mientras que la IA de visión por ordenador es esencial para identificar y extraer información sobre el diseño visual, la IA de PLN es necesaria para procesar y extraer la información detallada del contenido textual. Sin ambos componentes, la información contenida en la factura no puede comprenderse ni utilizarse plenamente.

¿Qué documentos se pueden leer?

Es importante saber que a la IA le resulta más fácil leer documentos estructurados que no estructurados. En un documento de identidad, reconoce inmediatamente la información que busca, mientras que con las condiciones generales primero tiene que buscarla.

En el mejor de los casos, la IA de documentos es entrenable y aprende continuamente dónde encontrar qué información sobre el tipo de documento.

Existen distintos enfoques para leer documentos estructurados, semiestructurados y no estructurados:

  • Documentos normalizados son, por ejemplo, los documentos de identidad o de matriculación de vehículos. Se podría pensar que bastaría con un simple enfoque basado en reglas. Sin embargo, no es tan fácil identificar correctamente la información. Se podría suponer que siempre están en el mismo lugar. Pero no es así, sobre todo si los documentos se doblaron previamente o se fotografiaron a mano alzada con un smartphone y están distorsionados o girados.
  • Documentos semiestructurados contienen la misma información, pero siempre se encuentra en lugares distintos del documento. Los modelos de IA adquieren las habilidades necesarias para encontrar la información que buscan basándose en palabras clave, por ejemplo, "número de teléfono", que puede encontrarse en cualquier lugar de cualquier página.
  • Documentos no estructurados contienen información buscada en cualquier posición y sin palabras clave. Aquí es donde entra en juego la capacidad de aprendizaje de la IA. Si le enseñas a la IA qué términos e información son relevantes, ya puede filtrarlos de forma independiente con los siguientes documentos.

Además de simples números y palabras, Document AI también puede capturar casillas de verificación y tablas con la formación adecuada.

¿Cómo funciona la comprensión de documentos?

Con la ayuda de RPA se crea un robot de comprensión de documentos. El flujo de trabajo se configura en el software correspondiente y puede tener este aspecto, por ejemplo:

  1. Crear taxonomía: La taxonomía se refiere a un modelo de clasificación. En el gestor de taxonomía debe definir primero un tipo de documento y clasificar los campos que se van a leer (por ejemplo, número de factura, total de la factura y fecha). La particularidad de Konfuzio es que la taxonomía puede configurarse libremente y, por tanto, adaptarse con flexibilidad a todo tipo de documentos e idiomas.
  2. Digitalizar documento: Con la ayuda de un Software OCR puede digitalizar el documento previamente definido y ponerlo en forma de texto legible por el robot.
  3. Clasificar: A partir de las palabras clave, el robot asigna el documento digitalizado a una clase documental definida en el Gestor de Taxonomía.
  4. Extracción: Una vez que la IA ha identificado de qué tipo de documento se trata, se leen los datos de los campos individuales. Para ello se utilizan enfoques basados en reglas o modelos.
  5. Validar: Si es necesario, los resultados de la extracción pueden mostrarse a los empleados en la estación de validación. Allí pueden comprobar los valores leídos y corregirlos si es necesario. Esta retroalimentación por parte de un humano, a menudo también llamada human-in-the-loop, ofrece a la IA la oportunidad de aprender. 
  6. Exportación: Por último, los datos se exportan a varios sistemas. Pueden ser sistemas SAP, por ejemplo, pero también tablas de Excel.
Caso práctico Konfuzio Comprensión de documentos

Comprensión de documentos en la práctica con Konfuzio

Ser capaz de utilizar la Comprensión de Documentos en la práctica es un cambio de juego. En el siguiente caso de uso se explica por qué y cómo utilizar el Document Understanding.

Ejemplo: IA independiente para el tratamiento de imágenes y texto de los mensajes 

Para explicarlo todo con un ejemplo, empecemos con una pregunta sencilla:

¿Por qué una IA reconoce mejor a un jugador de hockey que una nómina?

Artículo de periódico sobre hockey sobre hielo

Como puedes ver en la imagen, se muestra una foto encima de un artículo de noticias y este artículo de noticias muestra la información sobre una foto y por separado la foto de un jugador de hockey.

Utilicemos la primera dimensión de esta información del artículo y procesemos el Texto con un componente de PNL. Este componente PNL no se diseñó específicamente para este caso de uso, pero ya puede leer las denominadas entidades, por ejemplo, personas, lugares, organizaciones o incluso empresas.

Además, puede utilizar la función componente visual de la contribución y descubre, por ejemplo, que se pueden encontrar diferentes segmentaciones de una misma información. Puede tratarse, por ejemplo, del techo, de la pared o incluso de la persona individualmente, sin poder tener en cuenta el contexto, es decir, que se trata de un jugador de hockey sobre hielo en un estadio.

Ambas IA -la visión por ordenador y los modelos de entidades con nombre- tienen su justificación. Sin embargo, no es fácil combinarlas para procesar documentos. 

Por este motivo, el software Konfuzio se creó para que tanto los componentes semánticos como los visuales pudieran procesar la información en el contexto empresarial, es decir, dentro del documento.

Comprensión de documentos mediante IA híbrida para declaraciones salariales

Prueba de salario Documento KI Comprensión
La IA lee los campos del modelo de nómina

Si compara la nómina con el artículo del periódico, verá inmediatamente que la nómina puede representar semánticamente varias capas de información en un contexto bidimensional.

Por ejemplo: 

La estructura en forma de tabla de los emolumentos brutos de la relación salarial proporciona información sobre si un emolumento bruto corresponde a un pago único o si estos emolumentos brutos representan una remuneración regular del empleado. Precisamente esta información es muy relevante a la hora de calcular la situación de ingresos de un posible prestatario.

Por eso no basta con la extracción de información basada en reglas

Para leer esta información, los proveedores que sólo ofrecen soluciones OCR, NLP o IDP siempre tienen la desventaja de que trabajan basándose en reglas y, por tanto, muestran información incorrecta, por ejemplo, en el caso de escaneados mal orientados o documentos escaneados sesgados. 

La mayoría de las veces, los datos no están en una de las formas apropiadas y no hay orden en ellos. Se presentan de forma no estructurada. 

No existe una técnica o procedimiento específico para extraer datos de PDF no estructurados, ya que los datos se almacenan de forma aleatoria y depende del tipo de datos que se desee extraer de los PDF.

Las herramientas basadas en reglas trabajan con la localización de puntos de datos objetivo en el documento. A partir de este contexto, se buscan en el documento los valores finales importantes.

El inconveniente es: En cuanto se produce un ligero cambio en el formato, este planteamiento deja de funcionar. Si eres una empresa que trabaja con 60 proveedores de servicios diferentes en 10 países distintos, puedes suponer que tu herramienta basada en reglas alcanzará rápidamente sus límites.

Por supuesto, se podría considerar que, mediante datos de entrenamiento exhaustivos, los modelos de aprendizaje automático, los modelos de visión por ordenador o los modelos de PNL también pueden entrenarse para responder a estas características particulares de un documento. 

La dificultad aquí, sin embargo, es que el número de documentos de formación en el contexto técnico suele ser muy limitado y, por lo tanto, no se puede disponer de miles de documentos de formación para entrenar una IA de documentos de este tipo.

Como se puede ver, la extracción de información de documentos basada puramente en reglas y diseño ofrece un primer enfoque y también tiene su justificación por parte de distintos proveedores del mercado. La extracción de información puramente basada en IA suele estar limitada por el número de documentos de entrenamiento, que, si se proporcionan demasiado bajos, permiten incluso la extracción basada en IA sólo hasta un grado muy bajo de precisión.

Konfuzio 3 Símbolos Comprensión de documentos

Cuidado con los vecinos: Comprensión de documentos por Konfuzio

El enfoque Konfuzio funciona de forma diferente: la información se obtiene tanto de la semántica del documento (por ejemplo, redacción, lenguaje, forma o palabras de anclaje) como de la posición del texto en una página, por ejemplo, si la palabra está en una tabla o en el cuerpo del texto. 

De ahí el título "Mind your neighbours": basándose en la información del entorno, los "vecinos", la IA puede reconocer y asignar contenidos de forma fiable a partir de información unidimensional y bidimensional.

Puede leer más sobre cómo funciona la combinación de modelos que piensan unidimensionalmente y se basan en el texto continuo con información 2D del texto bajo el término Segmentación

De este modo, tiene la posibilidad de considerar la información de un texto no sólo en su contexto semántico, como extraería un modelo NER, sino incluir además la información que está presente debido a la orientación y el posicionamiento del texto en un documento.

Por ejemplo, el número de la casa o la calle podría escribirse bajo el nombre del empleado en un número estadísticamente frecuente.

La IA combina las últimas investigaciones sobre NER con la investigación sobre visión por ordenador para crear una comprensión global del documento, ya que dentro de la IA se pueden implementar y aprender los componentes ópticos típicos sin una extracción fija basada en el diseño. Al mismo tiempo, la IA tiene en cuenta el contexto semántico que se hace accesible a través de una representación unidimensional de la información. Esta IA también se denomina Documento AI llamado.

Más información Comprensión de documentos de Konfuzio en el sitio web.

¿Cuáles son las ventajas de la comprensión de documentos?

Especialmente cuando se procesan grandes volúmenes de documentos, Document Understanding aporta un enorme valor añadido. 

Las ventajas de utilizar Document Understanding en la empresa son las siguientes:

  • Tratamiento automatizado de grandes cantidades de documentos
  • Reducción del porcentaje de errores
  • Ahorro de tiempo y dinero
  • Eliminación de tareas repetitivas para los empleados
  • Aumentar la productividad de los empleados
  • Mayor satisfacción de los empleados

Conclusión: la comprensión de documentos debe utilizarse con sensatez

Si quieres aprovechar las ventajas de una IA que domine la comprensión de documentos, tienes que encontrar el software adecuado. No todos los programas de OCR o IDP sirven para esto.

Si tiene que tratar habitualmente con documentos exigentes como nóminas u hojas de cálculo complicadas, un software adecuado que haga inteligente la comprensión de documentos es la inversión que hará más eficiente su negocio.

Aunque al principio tenga que dedicar algún tiempo a entrenar a la IA, una vez que esté lista podrá beneficiarse de su trabajo y hacer que la IA lea sus documentos complicados de forma rápida, sencilla y correcta. 

Esto significa que ha automatizado inteligentemente un proceso que consumía mucho tiempo y era propenso a errores, y puede utilizar el tiempo ganado para otras tareas.

Puede encontrar más información sobre el tema aquí:

¿Utiliza ya el Document Understanding en su empresa? No dudes en escribirme tu opinión sobre el tema o cualquier otra pregunta en los comentarios.

Quiénes somos

Más artículos interesantes

Lobster_data Lobster DATA GmbH

Lobster_data, Lobster DATA GmbH y otros módulos de IA

Los datos son la columna vertebral de la transformación digital y su utilización eficaz es la clave del éxito de cualquier empresa. El reto...

Leer el artículo
Fábrica de datos Título

Konfuzio como potente alternativa a la Factoría de Datos

En el panorama actual basado en los datos, las organizaciones necesitan herramientas potentes para transformar e integrar los datos brutos no estructurados en información práctica. Azure...

Leer el artículo
título de técnico jurídico

Legal tech: éxito de la digitalización del sistema jurídico 

La llegada de la tecnología jurídica y el uso de la automatización del flujo de trabajo por parte de n8n están cambiando significativamente la forma de trabajar de los bufetes de abogados. En este...

Leer el artículo
Flecha arriba