Deepdoctection es una biblioteca de Python que orquesta las tareas de extracción de documentos y análisis de disposición de documentos utilizando modelos de aprendizaje profundo.
Deepdoctection se centra en las aplicaciones y está hecho para quienes desean programar problemas reales relacionados con la extracción de documentos de PDF o escaneados en diversos formatos de imagen.
Este artículo ha sido traducido al alemán y se ha traducido automáticamente a otros idiomas. Nos complacerá recibir sus comentarios al final del artículo.
Sitios web frente a documentos y digitalizaciones como soportes de información
Supongamos que desea evaluar las reseñas de un sitio web. Con un poco de experiencia en programación, puedes crear una investigación exhaustiva como el análisis de sentimiento en poco tiempo.
Supongamos ahora que desea evaluar de nuevo las opiniones de los clientes. Pero esta vez la información está en formularios escaneados. Tal vez los formularios no sean todos idénticos y algunos se hayan rellenado a mano. En este caso, tendrá que dedicar mucho más tiempo a conseguir sus objetivos.
Pero, ¿cuál es la gran diferencia?
En la medida en que quiera obtener su información de páginas web, tendrá que obtener sus datos mediante rastreo web y prepararlos de modo que de la representación HTML en bruto sólo quede la información que necesita para su análisis. Hasta el análisis, basta con un enfoque basado en reglas.
Pasemos ahora a los formularios: Aquí puedes tener un documento digitalizado, pero este documento almacena su contenido en forma de píxeles, es decir, en miles y miles de números entre 0 y 255. Ahora puedes hacer un Motor OCR sobre ella y obtendrás una combinación de palabras y coordenadas.
Ahora empieza el verdadero trabajo, porque hay que estructurar el formulario: Por ejemplo: ¿Cómo reconozco las entidades del formulario? ¿Qué bloques de palabras van juntos? ¿Qué estructuras hay, como tablas o párrafos?
Para abordar este tipo de problemas, se necesita un fondo de herramientas. Por un lado, la inteligencia artificial puede ser de ayuda, pero, por otro, hay que orquestarla para que sea eficaz como un todo.
deepdoctection - Pipelines para la IA de documentos
deepdoctection es un framework de código abierto basado en Python que puede ayudarle con la Extracción de información a partir de documentos. Encontrará la Código fuente en Github.

Uso de imagen y texto
A diferencia de los marcos habituales de Procesamiento del Lenguaje Natural, la deepdoctection ofrece la posibilidad de crear pipelines en los que se pueden utilizar modelos multimodales que lean información de imágenes además de texto. Esto incluye Información sobre la posición de palabras y segmentos de texto o toda la imagen. De hecho, se ha demostrado que, especialmente en el caso de los documentos del mundo empresarial cotidiano (formularios, informes, presentaciones), los modelos de IA que tienen en cuenta la información visual funcionan mejor para la extracción. Esto incluye la Familia LayoutLMun grupo de modelos desarrollados por Microsoft.
Con la detección profunda, puede utilizar estos modelos junto con el OCR para la clasificación de documentos o la Extracción de entidades pruébalo.
Análisis del diseño y extracción de tablas
Además, la deepdoctection ofrece la posibilidad, Modelos para el análisis de la presentación de documentos a utilizar. Son muy útiles para estructurar el documento en áreas específicas, como tablas, figuras o elementos de lista.
Las tablas también pueden reconstruirse y extraerse como un archivo csv o incluso como una estructura HTML. Puede utilizar Deepdoctection simplemente haz la prueba en línea.

OCR
OCR es otro componente importante y para ello deepdoctection ofrece la posibilidad de utilizar diferentes marcos de OCR. Entre ellos se encuentra el marco de código abierto más conocido Tesseractsino también el más moderno DocTr, que ofrece resultados más precisos para muchos casos de uso.
Modelos base de código abierto
deepdoctection ofrece la posibilidad de utilizar modelos base de varias bibliotecas de código abierto de alta calidad. Especialmente la ejecución de múltiples modelos de IA en una simple llamada es el punto fuerte de deepdoctection.
Formación y evaluación de modelos
Ningún modelo sirve para todos los casos. Pero la precisión puede mejorarse significativamente entrenando los modelos con sus propios datos. deepdoctection ofrece scripts de entrenamiento preconfigurados para varios modelos básicos, por lo que no tendrá que buscar laboriosamente una configuración adecuada.
Antes de poner en marcha un modelo, es necesario evaluarlo para comprobar si los resultados de la predicción son lo suficientemente precisos en datos que aún no se han visto. Para ello, deepdoctection ofrece métricas y herramientas de evaluación que puedes utilizar para evaluar exhaustivamente el poder predictivo de tu modelo.
Creación de conjuntos de datos
deepdoctection ofrece la posibilidad de crear y registrar conjuntos de datos propios. Esto facilita el entrenamiento de modelos básicos y también ofrece la posibilidad de combinar varios conjuntos de datos.
Palabras finales
Explore las posibilidades de la IA documental. Utilice la detección profunda para abordar sus propios casos de uso en Document AI.
Los tutoriales para principiantes y para temas avanzados están disponibles como Jupyter Notebook. Además, encontrará documentación completa sobre la arquitectura y la API del framework.
Y si tienes alguna pregunta, publica una incidencia o utiliza el foro en Github.
Sobre el autor de deepdoctection

La Dra. Janis Meyer lleva muchos años trabajando como ingeniera independiente de aprendizaje automático y consultora de gestión.
El desencadenante a tratar Documento AI temas para él era un proyecto que consistía en extraer cifras clave específicas de informes financieros.
Ha desarrollado la deepdoctection para crear nuevos modelos de aprendizaje automático en ciclos de iteración cortos para resolver problemas de IA de documentos en Tuberías integrar.
La Dra. Janis Meyer asesora a clientes finales y operadores de plataformas en la introducción e innovación de temas de automatización inteligente. Esto incluye asesoramiento general, así como supervisión de proyectos, implementación, pruebas y producción.
Konfuzio frente a deepdoctection
deepdoctection puede utilizarse en Konfuzio para poner en práctica casos de uso individuales. Konfuzio ofrece así la posibilidad de probar nuevos modelos en ciclos de iteración cortos y, si la evaluación es satisfactoria, integrarlos rápidamente en el proceso de producción.