Troncos de árbol apilados

Extracción de datos de documentos - How To II

Maximilian Schneider

Este artículo ha sido traducido al alemán y se ha traducido automáticamente a otros idiomas. Nos complacerá recibir sus comentarios al final del artículo.

Cómo optimizar su proyecto utilizando plantillas

Una vez introducido el primera instrucción hemos podido conocer lo básico, ahora podemos ir un paso más allá. 

En este tutorial, también utilizaremos nuestro conjunto de datos de recibos. Esta vez, sin embargo, nos ocuparemos de los servicios individuales enumerados. Para poder etiquetarlas con sentido, utilizaremos por primera vez las secciones. Aquí es importante que enseñemos a la IA no sólo qué entidades pertenecen a cada etiqueta, sino también cómo se relacionan entre sí las anotaciones. 

Cuando leemos el precio de un producto, esta información sólo es útil si también sabemos a qué producto pertenece ese precio. Lo mismo ocurre con la cantidad y cualquier otra información que queramos leer en voz alta. En consecuencia, todas las anotaciones que pertenecen a un producto y, por tanto, entre sí, se agrupan en una sección. 

En este ejemplo, las secciones corresponden a los productos a nivel de contenido y a las filas a nivel de formato. Las etiquetas corresponden a las propiedades de los productos a nivel de contenido y a las columnas a nivel de formato. 

Así, a todas las entidades relevantes se les asignan dos informaciones, la sección y la etiqueta. Esto se ilustra en la imagen con las marcas de colores.

secciones y etiquetas

Este principio es necesario para listas y tablas, entre otras cosas. Le mostraremos cómo enseñárselas a la IA con este ejemplo.


Guía paso a paso

  1. Crear proyecto

    Utilizamos el mismo proyecto que en la primera Instrucciones. Si quieres crear uno nuevo, puedes consultar allí de nuevo cómo crear un proyecto. 

  2. Crear nuevas etiquetas

    Pulse en INICIO > Etiquetas > +Añadir y añada allí sus etiquetas.
    En nuestro ejemplo son: "Cantidad", "Descripción", "Precio unitario", "Subtotal" y "Código IVA".

  3. Crear una plantilla

    Una plantilla es un grupo de etiquetas que se sitúan en un contexto lógico factual. Son, por tanto, el modelo abstracto de las secciones. Haga clic en INICIO > Plantillas > +Añadir para crear una nueva plantilla. Nombre su plantilla (Aquí: "Servicios individuales"). Seleccione el proyecto correspondiente (aquí: "Recibos"). Marque la casilla "Tiene varias secciones". Haga clic en "Guardar y continuar editando" para pasar al siguiente paso. Aquí puede añadir las etiquetas que acaba de crear a la plantilla utilizando las teclas de flecha. Haga clic en "Guardar" para guardar la plantilla.

  4. Crear datos de entrenamiento

    Las secciones son grupos de información relacionada en un documento. Son las manifestaciones concretas de las plantillas. En nuestro ejemplo, la primera sección contiene toda la información del primer producto, es decir, la línea superior o el primer servicio individual del recibo.
    Para etiquetar la primera sección, creamos una anotación que pertenece a la primera sección. Tras hacer clic en la entidad correcta, podemos determinar las propiedades de la anotación en la barra de anotaciones de la derecha mediante dos pestañas. En la pestaña superior seleccionamos la plantilla que corresponde a la sección y en la pestaña inferior seleccionamos la etiqueta que se debe asignar a la entidad.
    Seleccionamos "Rendimiento único (Nuevo)" en la parte superior y "Número" en la parte inferior. A continuación, etiquetamos el resto de la sección, con lo que la primera sección aparece ahora como "Single Performance". Repetimos esta operación para las secciones siguientes. A continuación, se enumeran en la pestaña numerada de arriba abajo. Para crear una sección adicional, seleccione "Actuación única (Nueva)".

    Repetimos este proceso para todos los documentos de formación. Cree sus datos de entrenamiento según nuestro ejemplo. Debido a la diversidad del ámbito de aplicación, pueden producirse diferencias. Por ejemplo, las secciones no siempre tienen que corresponderse con las filas.

  5. Comprobación de los datos de entrenamiento

    Puede comprobar si las etiquetas son correctas, ya que aparecen encima de las anotaciones. Sin embargo, es igualmente importante para el éxito del aprendizaje de la IA que compruebe si las etiquetas se asignan a las secciones correctas. Para ello, puedes hacer lo siguiente: 
    En la esquina superior derecha de la barra de anotaciones, seleccione la primera sección de la pestaña "Secciones" en Filtro (aquí: "Rendimiento individual"). Ahora sólo deberían ser visibles las etiquetas de la primera sección. Normalmente se puede ver de un vistazo si son correctas (aquí: si todas las etiquetas están en una línea). Si reconoce un error, puede corregirlo mediante "Editar" en la barra de anotaciones. (Consejo: utilice también este método para comprobar los resultados de la IA).

  6. Evaluar los resultados y dar retroalimentación

    Puedes ver cómo dividir tus documentos en un conjunto de datos de entrenamiento y otro de prueba y entrenar la IA en el primer tutorial. También muestra cómo dar retroalimentación a la IA.

  7. Exportar resultados

    También puedes ver cómo exportar tus datos y descargarlos en el primer tutorial


¿Alguna pregunta? Trabajamos constantemente para mejorar nuestras instrucciones para que puedas utilizar Konfuzio de la forma más rápida y sencilla posible. Por favor, háganos saber si queda alguna pregunta sin responder para que podamos ofrecerle la mejor solución posible. Gracias.

Sobre mí

Más artículos interesantes

Especias varias en cucharas

Clasificación de documentos con IA para su gestión documental

Implementación de la gestión de documentos en línea Este tutorial trata sobre la clasificación de documentos con IA. En contraste con...

Leer el artículo
Logotipo Konfuzio

PDFTron vs Konfuzio - El enfrentamiento definitivo de herramientas

PDFtron (Apryse) y Konfuzio ofrecen soluciones de software de alta calidad para el procesamiento digital de documentos. Qué oferta se adapta a los requisitos de su...

Leer el artículo
Capturar albarán OCR

El OCR de albaranes automatiza la extracción de datos mediante escáner

Con la IA y el OCR de documentos, extraiga automáticamente toda la información de un albarán. Interfaz de usuario que permite...

Leer el artículo

    Flecha arriba

    Este artículo ha sido traducido al alemán y se ha traducido automáticamente a otros idiomas. Nos complacerá recibir sus comentarios al final del artículo.

    Navegación