Caja delimitadora en contenedor

Identificación de cajas delimitadoras para segmentación de páginas y OCR

Elizaveta Ezhergina

Las redes de propuestas regionales (RPN), también conocidas como modelos de IA de caja delimitadora, están adquiriendo cada vez más importancia en la IA de documentos, ya que mejoran enormemente la eficacia y la precisión de la extracción de información.

En esta entrada del blog, exploramos por qué los modelos de IA de cuadro delimitador son esenciales para la IA de documentos, presentamos cinco artículos de investigación recientes y demostramos las capacidades del SDK Konfuzio para la Extracción de datos y cuadros delimitadores para entrenar sus modelos.

¿Qué son los recuadros delimitadores?

Los recuadros delimitadores son rectángulos imaginarios que se utilizan en el procesamiento de imágenes para detectar objetos y colisiones. Los anotadores de datos dibujan estos rectángulos alrededor de los objetos clave de las imágenes y definen las coordenadas X e Y para ayudar a los algoritmos de aprendizaje automático a encontrar eficazmente las trayectorias de colisión. Para obtener mejores índices de predicción, se utilizan conjuntamente varios recuadros delimitadores y métodos de mejora de datos.

Bounding Box OCR
Consulte la documentación sobre dev.confuzio.com

Los parámetros importantes que definen un cuadro delimitador son la clase (tipo de objeto), (X0, Y0) y (X1, Y1) para las esquinas superior izquierda e inferior derecha, (X1, Y1) para el centro, la anchura, la altura y la confianza (probabilidad del objeto dentro del cuadro). Se utilizan dos convenciones principales para especificar una caja delimitadora: coordenadas X e Y de los puntos superior izquierdo e inferior derecho o coordenadas X e Y del centro junto con la anchura y la altura. Los recuadros delimitadores son métodos eficaces y rentables de anotación de imágenes.

Impacto de los cuadros delimitadores en la IA de los documentos

La IA de documentos implica varias tareas, como OCR, extracción de texto y clasificación de información, por lo que los modelos de IA de caja delimitadora son una parte esencial del proceso. Los recuadros delimitadores ofrecen varias ventajas:

  1. Localización precisa del texto: los recuadros delimitadores permiten localizar con precisión los elementos de texto dentro de un documento, lo que resulta crucial para una extracción y clasificación correctas.
  2. Procesamiento de diseños complejos: los documentos suelen tener diseños complicados con múltiples columnas, tablas e imágenes. Los modelos de IA de cuadro delimitador segmentan eficazmente estos elementos y permiten una extracción de datos más precisa.
  3. Mejora del rendimiento del OCR: los modelos de IA de cuadro delimitador mejoran el rendimiento del OCR al centrarse en áreas específicas de interés, lo que reduce los falsos positivos y aumenta la precisión del reconocimiento.
  4. Extracción de datos mejorada: los modelos de IA de cuadro delimitador facilitan la extracción de datos relevantes de los documentos mediante la identificación y segmentación de elementos de texto específicos como nombres, fechas y direcciones.
  5. Escalabilidad: dado que los modelos de IA de recuadro delimitador se basan en técnicas de aprendizaje profundo, pueden adaptarse a tipos de documentos nuevos y diferentes con una intervención manual mínima, lo que los hace muy escalables para aplicaciones de IA de documentos a gran escala.

Conjuntos de datos de anotación para modelos de aprendizaje automático

Los conjuntos de datos anotados desempeñan un papel fundamental en el desarrollo de modelos de aprendizaje automático, especialmente para tareas basadas en imágenes. Al proporcionar imágenes anotadas con cuadros delimitadores alrededor de los objetos de interés, los desarrolladores pueden crear conjuntos de datos completos que ayudan a los modelos a reconocer patrones y asociaciones entre clases de objetos y características. Estos conjuntos de datos constituyen la base para el entrenamiento de diversos modelos de aprendizaje profundo, incluidas las redes neuronales para el reconocimiento y la clasificación de objetos.

Redes neuronales y aplicaciones de visión por ordenador

Las redes neuronales, especialmente los modelos de aprendizaje profundo como las redes neuronales convolucionales (CNN), han revolucionado las aplicaciones de visión por ordenador. El objetivo de estas aplicaciones es enseñar a las máquinas a interpretar y comprender la información visual del mundo. Al aprender automáticamente características y patrones a partir de imágenes, estos modelos eliminan la necesidad de crear características manualmente. Mediante el uso de recuadros delimitadores anotados durante el proceso de entrenamiento, las redes neuronales pueden aprender eficazmente a localizar e identificar objetos en imágenes, lo que da lugar a avances significativos en la IA documental y otros ámbitos de la visión por ordenador.

Incluir cuadros delimitadores en los modelos de reconocimiento de objetos

La integración de recuadros delimitadores en modelos de reconocimiento de objetos como YOLO, SSD y Faster R-CNN es esencial para su entrenamiento. Estos modelos utilizan conjuntos de datos anotados que contienen recuadros delimitadores para aprender a predecir posiciones y clases de objetos en las imágenes. Durante el proceso de entrenamiento, los modelos de reconocimiento de objetos utilizan estas anotaciones para optimizar sus parámetros, lo que mejora la precisión de las predicciones. Una vez entrenados, estos modelos pueden generar recuadros delimitadores alrededor de objetos en imágenes nuevas y desconocidas, lo que permite una extracción de información eficaz y precisa en diversas aplicaciones, incluida la IA documental.

Conjuntos de datos de imágenes y documentos

Conjuntos de datos de imágenes

Se pueden utilizar numerosos conjuntos de datos de imágenes y documentos para entrenar modelos neuronales de procesamiento de imágenes, entre ellos:

  1. COCO (Objetos comunes en contexto): Conjunto de datos ampliamente utilizado que contiene 330 000 imágenes con anotaciones para 80 clases de objetos, centrado en tareas de reconocimiento, segmentación y etiquetado de objetos.
  2. Pascal VOC: un popular conjunto de datos para el reconocimiento y la segmentación de objetos, compuesto por 11.530 imágenes con anotaciones para 20 clases de objetos.
  3. Imágenes abiertas: Un amplio conjunto de datos con 9 millones de imágenes y anotaciones para más de 600 clases de objetos, adecuado para tareas de reconocimiento de objetos, segmentación y reconocimiento de relaciones visuales.
  4. ADE20K: conjunto de datos para el análisis sintáctico de escenas que contiene 20.210 imágenes con anotaciones para 150 clases de objetos útiles para tareas de segmentación semántica.

Registros de documentos

  1. RVL-CDIP (Ryerson Vision Lab Complex Document Information Processing): Un conjunto de datos de 400.000 imágenes de documentos en escala de grises con anotaciones para 16 categorías de documentos, adecuado para tareas de clasificación de documentos.
  2. ICDAR (Conferencia Internacional sobre Análisis y Reconocimiento de Documentos): Una serie de conjuntos de datos publicados con motivo de la conferencia ICDAR, centrados en tareas como el reconocimiento de texto, el reconocimiento y la segmentación en imágenes de documentos.
  3. PubLayNet: un completo conjunto de datos con más de 360.000 imágenes de documentos y anotaciones para cinco elementos comunes de diseño (texto, título, lista, tabla y figura) diseñado para el análisis y la segmentación del diseño de documentos.
  4. FUNSD (Comprensión de formularios en documentos escaneados con ruido): Un conjunto de datos de 199 formularios escaneados con anotaciones para tareas de comprensión de formularios, incluido el reconocimiento de texto, la extracción de pares clave-valor y la segmentación de campos de formulario.
  5. DocBank: un completo conjunto de datos de 500.000 imágenes de documentos anotadas en 13 categorías y con información detallada a nivel de token, diseñado para el análisis del diseño de los documentos y la extracción de información.

Estos conjuntos de datos cubren diversos aspectos del procesamiento de imágenes y documentos, proporcionando una base sólida para el entrenamiento de modelos de visión neuronal en diversas tareas de visión por ordenador y de IA de documentos.

Documentos de investigación sobre modelos de IA de cuadro delimitador

  1. "EfficientDet: Scalable and Efficient Object Detection" por Mingxing Tan, Ruoming Pang y Quoc V. Le.
  2. "Cascade R-CNN: High-Quality Object Detection and Instance Segmentation", de Zhaowei Cai y Nuno Vasconcelos.
  3. "YOLOv4: velocidad y precisión óptimas en el reconocimiento de objetos", por Alexey Bochkovskiy, Chien-Yao Wang y Hong-Yuan Mark Liao.
  4. "FCOS: Fully Convolutional One-Stage Object Detection", por Zhi Tian, Chunhua Shen y Hao Chen.
  5. "DETR: End-to-End Object Detection with Transformers", por Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov y Sergey Zagoruyko.

Konfuzio SDK - Recuperación de datos y formación de cuadros delimitadores

En Konfuzio SDK proporciona una solución completa para recuperar datos y cuadros delimitadores de documentos, lo que le permite entrenar eficazmente sus modelos. Entre las principales características del SDK Konfuzio se incluyen:

  1. Extracción de datos: con el SDK puede extraer texto, imágenes, tablas y otros elementos de documentos con gran precisión.
  2. Creación de cuadros delimitadores: permite crear cuadros delimitadores precisos alrededor de los elementos de texto, lo que facilita la extracción y clasificación precisas de los datos.
  3. Entrenamiento de modelos personalizados: el SDK admite el entrenamiento de modelos personalizados utilizando sus datos etiquetados, lo que garantiza un mejor rendimiento y adaptabilidad a su caso de uso específico.
  4. Integración con marcos populares: El SDK de Konfuzio se integra perfectamente con marcos populares de aprendizaje profundo como TensorFlow y PyTorch, para que pueda aprovechar las últimas investigaciones y técnicas.
  5. Mejora continua: el SDK le permite mejorar continuamente sus modelos mediante el aprendizaje activo, lo que garantiza que su sistema de IA documental se mantenga actualizado y cumpla los requisitos cambiantes.

Retos y perspectivas de futuro en la predicción de recuadros delimitadores

Los modelos de IA de caja delimitadora han transformado el campo de la IA de documentos al proporcionar capacidades de segmentación de páginas precisas y eficientes. Las últimas investigaciones muestran los continuos avances en este campo.

A pesar de los importantes avances logrados en la predicción de recuadros delimitadores y sus aplicaciones en la IA de documentos, aún quedan retos por superar. Uno de ellos es la predicción precisa de recuadros delimitadores para objetos muy desordenados o superpuestos. Además, el rendimiento de los modelos de reconocimiento de objetos depende en gran medida de la calidad y la cantidad de los conjuntos de datos anotados.

A medida que aumenta la necesidad de sistemas de IA documental más precisos y eficaces, es probable que la investigación futura se centre en superar estos retos desarrollando técnicas innovadoras para mejorar la predicción de los recuadros delimitadores, utilizando el aprendizaje no supervisado o semisupervisado, y creando conjuntos de datos más diversos y amplios con fines de formación.

Nuevas técnicas, como el "aprendizaje de pocos disparos" y el "aprendizaje por transferencia", prometen reducir la dependencia de grandes conjuntos de datos anotados o aprender de forma continua a partir de la retroalimentación humana, vea nuestro post Humanos en el bucle. Estos enfoques pueden ayudar a reducir la carga de la anotación manual y permitir que los modelos generalicen mejor entre distintos tipos y diseños de documentos.

Además, la integración de técnicas de procesamiento del lenguaje natural (PLN) con modelos de IA de caja delimitadora puede ayudar a mejorar la comprensión del contexto y la semántica en los documentos. Esta sinergia puede conducir a una extracción y clasificación más inteligentes de la información, lo que permitirá a los sistemas de IA documental comprender y procesar mejor documentos complejos.

Otra área de investigación que probablemente contribuirá al desarrollo de los modelos de IA de cuadro delimitador es el avance de las técnicas de optimización de hardware y software. A medida que los modelos de aprendizaje profundo se vuelvan más complejos e intensivos desde el punto de vista computacional, será fundamental mejorar la eficiencia de los predictores de los recuadros delimitadores. Las innovaciones en hardware, como las GPU y los chips especializados en IA, junto con las optimizaciones de software y los avances algorítmicos, desempeñarán un papel importante en el progreso continuo de la IA documental.

En resumen, el futuro de la IA documental parece prometedor, ya que los investigadores y desarrolladores siguen ampliando los límites de lo posible con los modelos de IA de cuadro delimitador y técnicas afines. A medida que estas tecnologías sigan evolucionando, podemos esperar sistemas de IA documental aún más precisos, eficientes y adaptables, capaces de gestionar una amplia gama de tareas y retos en diferentes industrias y dominios.

Sobre mí

Más artículos interesantes

OCR con IA: captura inteligente de documentos

Con la ayuda de la inteligencia artificial, el OCR puede elevarse a un nuevo nivel de evolución. Este avance en el tratamiento de documentos permite...

Leer el artículo

Tesseract OCR

Demostración de Tesseract Online OCR Encontrará más información sobre Tesseract en los siguientes artículos Guía de Tesseract (1): Instalación, configuración y...

Leer el artículo
lista python

Lo más importante de las listas de Python

En esta entrada del blog, echaremos un vistazo en profundidad a las listas de Python, una de las estructuras de datos más básicas y utilizadas en Python.....

Leer el artículo
Flecha arriba