canal de datos deepdoctection

deepdoctection - Un marco de código abierto para la IA de documentos

Nelson Fernandes

Deepdoctection es una biblioteca de Python que orquesta las tareas de extracción de documentos y análisis de disposición de documentos utilizando modelos de aprendizaje profundo.

Deepdoctection se centra en las aplicaciones y está hecho para quienes desean programar problemas reales relacionados con la extracción de documentos de PDF o escaneados en diversos formatos de imagen.

Sitios web frente a documentos y digitalizaciones como soportes de información

Supongamos que desea evaluar las reseñas de un sitio web. Con un poco de experiencia en programación, puedes crear una investigación exhaustiva como el análisis de sentimiento en poco tiempo.

Supongamos ahora que desea evaluar de nuevo las opiniones de los clientes. Pero esta vez la información está en formularios escaneados. Tal vez los formularios no sean todos idénticos y algunos se hayan rellenado a mano. En este caso, tendrá que dedicar mucho más tiempo a conseguir sus objetivos.

Pero, ¿cuál es la gran diferencia?

En la medida en que quiera obtener su información de páginas web, tendrá que obtener sus datos mediante rastreo web y prepararlos de modo que de la representación HTML en bruto sólo quede la información que necesita para su análisis. Hasta el análisis, basta con un enfoque basado en reglas.

Pasemos ahora a los formularios: Aquí puedes tener un documento digitalizado, pero este documento almacena su contenido en forma de píxeles, es decir, en miles y miles de números entre 0 y 255. Ahora puedes hacer un Motor OCR sobre ella y obtendrás una combinación de palabras y coordenadas.

Ahora empieza el verdadero trabajo, porque hay que estructurar el formulario: Por ejemplo: ¿Cómo reconozco las entidades del formulario? ¿Qué bloques de palabras van juntos? ¿Qué estructuras hay, como tablas o párrafos?

Para abordar este tipo de problemas, se necesita un fondo de herramientas. Por un lado, la inteligencia artificial puede ser de ayuda, pero, por otro, hay que orquestarla para que sea eficaz como un todo.

deepdoctection - Pipelines para la IA de documentos

deepdoctection es un framework de código abierto basado en Python que puede ayudarle con la Extracción de información a partir de documentos. Encontrará la Código fuente en Github.

deepdoctection

Uso de imagen y texto

A diferencia de los marcos habituales de Procesamiento del Lenguaje Natural, la deepdoctection ofrece la posibilidad de crear pipelines en los que se pueden utilizar modelos multimodales que lean información de imágenes además de texto. Esto incluye Información sobre la posición de palabras y segmentos de texto o toda la imagen. De hecho, se ha demostrado que, especialmente en el caso de los documentos del mundo empresarial cotidiano (formularios, informes, presentaciones), los modelos de IA que tienen en cuenta la información visual funcionan mejor para la extracción. Esto incluye la Familia LayoutLMun grupo de modelos desarrollados por Microsoft.

Con la detección profunda, puede utilizar estos modelos junto con el OCR para la clasificación de documentos o la Extracción de entidades pruébalo.

YouTube

Al cargar el vídeo, aceptas la política de privacidad de YouTube.
Más información

Cargar vídeo

Análisis del diseño y extracción de tablas

Además, la deepdoctection ofrece la posibilidad, Modelos para el análisis de la presentación de documentos a utilizar. Son muy útiles para estructurar el documento en áreas específicas, como tablas, figuras o elementos de lista.

Las tablas también pueden reconstruirse y extraerse como un archivo csv o incluso como una estructura HTML. Puede utilizar Deepdoctection simplemente haz la prueba en línea.

Demostración en directo

OCR

OCR es otro componente importante y para ello deepdoctection ofrece la posibilidad de utilizar diferentes marcos de OCR. Entre ellos se encuentra el marco de código abierto más conocido Tesseractsino también el más moderno DocTr, que ofrece resultados más precisos para muchos casos de uso.

Modelos base de código abierto

deepdoctection ofrece la posibilidad de utilizar modelos base de varias bibliotecas de código abierto de alta calidad. Especialmente la ejecución de múltiples modelos de IA en una simple llamada es el punto fuerte de deepdoctection.

Formación y evaluación de modelos

Ningún modelo sirve para todos los casos. Pero la precisión puede mejorarse significativamente entrenando los modelos con sus propios datos. deepdoctection ofrece scripts de entrenamiento preconfigurados para varios modelos básicos, por lo que no tendrá que buscar laboriosamente una configuración adecuada.

Antes de poner en marcha un modelo, es necesario evaluarlo para comprobar si los resultados de la predicción son lo suficientemente precisos en datos que aún no se han visto. Para ello, deepdoctection ofrece métricas y herramientas de evaluación que puedes utilizar para evaluar exhaustivamente el poder predictivo de tu modelo.

Creación de conjuntos de datos

deepdoctection ofrece la posibilidad de crear y registrar conjuntos de datos propios. Esto facilita el entrenamiento de modelos básicos y también ofrece la posibilidad de combinar varios conjuntos de datos.

Palabras finales

Explore las posibilidades de la IA documental. Utilice la detección profunda para abordar sus propios casos de uso en Document AI.

Los tutoriales para principiantes y para temas avanzados están disponibles como Jupyter Notebook. Además, encontrará documentación completa sobre la arquitectura y la API del framework.

Y si tienes alguna pregunta, publica una incidencia o utiliza el foro en Github.

Sobre el autor de deepdoctection

Janis Meyer

La Dra. Janis Meyer lleva muchos años trabajando como ingeniera independiente de aprendizaje automático y consultora de gestión.

El desencadenante a tratar Documento AI temas para él era un proyecto que consistía en extraer cifras clave específicas de informes financieros.

Ha desarrollado la deepdoctection para crear nuevos modelos de aprendizaje automático en ciclos de iteración cortos para resolver problemas de IA de documentos en Tuberías integrar.

La Dra. Janis Meyer asesora a clientes finales y operadores de plataformas en la introducción e innovación de temas de automatización inteligente. Esto incluye asesoramiento general, así como supervisión de proyectos, implementación, pruebas y producción.

Konfuzio frente a deepdoctection

deepdoctection puede utilizarse en Konfuzio para poner en práctica casos de uso individuales. Konfuzio ofrece así la posibilidad de probar nuevos modelos en ciclos de iteración cortos y, si la evaluación es satisfactoria, integrarlos rápidamente en el proceso de producción.

    🐍✨¿Buscas un nuevo reto?

    ¡Únete al Club de la Comedia de la IA! Sumérgete en un mundo donde la IA y el humor se dan la mano y utiliza este escenario para mostrar tus habilidades. Tanto si eres un joven aspirante como un desarrollador experimentado, aquí tienes la oportunidad de mostrar tus habilidades con Python de una forma divertida e innovadora. Descubra también oportunidades para contribuir e incluso solicitar un empleo con nosotros.

    ¿Listo para codificar, reír e impresionar?

    Eche un vistazo a nuestro AI Desafío del Club de la Comedia y descubre adónde pueden llevarte tu humor y tus conocimientos de Python.

    Solicita puestos de científico de datos, desarrollador backend, ingeniero de datos, desarrollador de software, desarrollador de software python.

    Sobre mí

    Más artículos interesantes

    Curso de Python

    Curso de Python - Elegir el proveedor de formación adecuado

    Si usted es un desarrollador de Python que busca ampliar o profundizar sus conocimientos, la elección del proveedor de formación adecuado es crucial. Nuestro...

    Leer el artículo
    Socio de soluciones Origoss

    Origoss Solutions Ltd y Konfuzio inician su colaboración

    Las colaboraciones sólidas desempeñan un papel crucial. Especialmente en el ámbito altamente dinámico de la inteligencia artificial (IA). Konfuzio y Origoss Solutions...

    Leer el artículo
    Dashlake

    Optimizar la gestión de datos en las empresas

    La gestión de datos en red es esencial para optimizar sus procesos empresariales. Opciones de análisis eficaces, flujos de trabajo fluidos y una integración sencilla en su organización son...

    Leer el artículo
    Flecha arriba