Extracción de datos de documentos - How To I

Leíste una versión traducida automáticamente del post original en alemán.

Cómo iniciar su proyecto con Konfuzio


YouTube

Al cargar el vídeo, aceptas la política de privacidad de YouTube.
Más información

Cargar vídeo


Documentos AI Guía paso a paso

  1. Crear un nuevo proyecto

    Póngase en contacto con nuestro servicio de atención al clientepara enviar una solicitud de acceso para iniciar un nuevo proyecto. Dé un nombre a su proyecto. En nuestro ejemplo se llama "Recibos". Guarde el proyecto mediante "Guardar". Puede añadir usuarios adicionales a su proyecto a través de INICIO u003e Invitaciones a proyectos u003e Añadir+ invitar.

  2. Creación de una etiqueta

    Haga clic en INICIO u003e Etiquetas u003e Añadir etiqueta + para crear una etiqueta. Ponle un nombre a tu etiqueta. En nuestro ejemplo se denomina "Importe bruto". Añádalo a su proyecto a través de la pestaña (aquí: "Recibos") y haga clic en "Guardar". 

    Haga clic en INICIO u003e Plantillas para ir a las plantillas. Haga clic en la plantilla que tenga el nombre de su proyecto (aquí: "Recibos"). Añada la etiqueta que ha creado a la plantilla utilizando los botones de flecha para añadirla de "etiquetas disponibles" a "etiquetas elegidas". Guarde haciendo clic en "Guardar". En el siguiente tutorial aprenderás a utilizar plantillas para leer documentos complejos.

  3. Cargar los documentos

    Haga clic en DOCUMENTOS. Puede cargar aquí sus archivos locales utilizando Dragu0026Drop o la ventana del navegador. Haga clic en el botón Recargar para recargar la página después de la carga. Ahora comenzará el proceso de OCR. Dependiendo del tamaño del archivo, esto puede tardar un momento. Ahora estamos cargando 9 recibos (5 de formación y 4 de prueba).

  4. Etiquetado

    Una vez finalizado el proceso de OCR, puedes acceder a tu documento a través de "Smartview". El OCR habrá clasificado la información del documento en entidades. u0022Entidadesu0022 son palabras individuales o fragmentos de información que aparecen enmarcados con líneas discontinuas. Al hacer clic sobre ellas, su fondo se vuelve verde. u0022Anotacionesu0022 son información relevante en un documento que debe ser recuperada o utilizada. Son entidades a las que se ha asignado una etiqueta, ya sea manualmente por un humano o automáticamente por la IA. Utilice el lazo si desea asignar varias entidades a una etiqueta. Para ello, mantenga pulsado el puntero del ratón y arrastre el lazo rojo que aparece sobre las entidades que desea seleccionar.
    Haga clic en la entidad que desee marcar (aquí, por ejemplo, "48,60"). A la derecha, en la barra de anotaciones, verá que el contenido de la entidad está siendo leído por OCR. Haga clic en "Guardar" para asignar la etiqueta creada a la entidad (aquí: "Importe bruto") y convertirla así en una anotación.

    En un proyecto más complicado, ahora tendría que seleccionar qué tipo de plantilla es y en qué sección del documento se encuentra. Para eso está la pestaña superior. En este tutorial, sin embargo, sólo trataremos los aspectos básicos, por lo que aquí sólo tienes una etiqueta para elegir.

    Repita el paso 4 para todos los documentos cargados. Utilice las flechas para pasar de un documento a otro.

  5. División en datos de entrenamiento y de prueba

    Una vez etiquetados todos los documentos, pueden dividirse en datos de entrenamiento y datos de prueba. 

    El conjunto de datos de entrenamiento contiene documentos etiquetados manualmente, a partir de los cuales la IA aprende a etiquetar documentos por sí misma. El conjunto de datos de prueba también contiene documentos etiquetados manualmente. La IA intenta etiquetarlos basándose en los conocimientos que ha adquirido del conjunto de datos de entrenamiento. Después, las anotaciones creadas por la IA se comparan con las creadas por humanos y se analizan estadísticamente. 

    En la vista de documentos, ahora puede marcar la casilla situada a la izquierda de cada nombre de archivo para seleccionar los documentos. En nuestro ejemplo, seleccionamos 5 documentos y elegimos la acción "Añadir al conjunto de datos de formación" en la pestaña de acciones de la parte inferior y hacemos clic en "Ir". A continuación, seleccionamos los 4 documentos restantes y repetimos el paso con la acción "Añadir al conjunto de datos de prueba". 

  6. Iniciar el reciclaje y evaluar los resultados

    Haga clic en INICIO u003e Proyectos. Busque su proyecto y márquelo con una cruz. En la pestaña Acción, seleccione "Reentrenar modelo de IA" y haga clic en Ir. Un cartel que dice "Se ha iniciado el reentrenamiento del modelo de IA. Puede tardar hasta 24 horas". En un proyecto pequeño como el de este ejemplo, debería entrenarse tras sólo unos minutos. 

    Para comprobar si el modelo de IA recién entrenado está listo, haga clic en INICIO u003e Modelos de IA. Aquí se incluye la evaluación cuantitativa basada en los datos de las pruebas.

  7. Dar feedback

    Cargue un nuevo documento como se describe en el paso 3. Haga clic en "Smartview" después de que haya pasado por el proceso de OCR. Aquí puede revisar las anotaciones producidas por la IA. Confirme las sugerencias correctas haciendo clic en la marca verde y rechace las incorrectas borrándolas con la "X" roja. Añada también las anotaciones que falten. 

    Ahora puedes añadir este documento al conjunto de datos de entrenamiento como en el paso 5 para aumentarlo y mejorar así el modelo de IA o puedes exportar la información. Si no obtiene resultados o obtiene resultados muy malos, compruebe si ha hecho todo bien en los pasos 4-6 o aumente el número de documentos de formación.

  8. Exporte sus resultados

    Seleccione los documentos cuyos datos desea descargar marcándolos. Si selecciona aquí varios documentos, se combinarán en un archivo CSV. En la pestaña de acciones, seleccione la acción "obtener datos humanos revisados como archivo csv" y haga clic en "ir". La descarga del archivo CSV debería iniciarse automáticamente. Los archivos CSV pueden utilizarse con programas de hojas de cálculo como Microsoft Excel, Google Sheets, etc.


Foto de Brandon Montrone de Pexels

"
"
Avatar de Maximilian Schneider

Últimos artículos