R-CNN y PEGASUS más rápidos: resumen automático de textos en documentos

Hoy en día, las empresas deben procesar volúmenes cada vez mayores de documentos y la información que contienen para poder aprovechar el contenido oculto. Para ello se recurre a la laboriosa síntesis manual de textos o a una solución automatizada. El resumen automático de textos ayuda a los humanos a procesar eficazmente la creciente cantidad de información.

¿Qué es exactamente el resumen automático de textos?

El Oxford English Dictionary define el resumen automático de textos como "la producción de una versión abreviada de un texto mediante un programa informático". El producto de este proceso sigue conteniendo los puntos principales del texto original". [1]

Un buen ejemplo de resumen útil es el de los informes anuales de las empresas. Estos documentos contienen muchos datos que pueden ser cruciales para los inversores, ya que contienen información sobre muchos factores, como la sostenibilidad o la política medioambiental, que pueden ser útiles para las decisiones de los inversores. Sin embargo, los informes anuales suelen ser documentos muy extensos, con cientos de páginas, lo que convierte su análisis en un proceso lento que podría facilitarse con un flujo de trabajo automatizado.

¿Cómo resumir el texto de los archivos PDF?

Dividimos el proceso en tres partes principales. Para cada uno de estos pasos, entraremos en más detalles en las siguientes secciones de este artículo. Puede pasar directamente a los detalles, o primero le explicaremos los principales resultados de cada paso.

1. utilizar el reconocimiento de objetos para la segmentación de páginas

El primer paso consiste en seleccionar las partes del documento en las que queremos centrarnos. Por segmentación de páginas o también llamado análisis de diseño, entendemos la división de un documento en partes individuales. Esto se hace con nuestro propio modelo entrenado, ya que no pudimos lograr el resultado deseado con software estándar como Tesseract o Abbyy FineReader. Aunque podemos obtener mucha información ya resumida de imágenes, gráficos y títulos, es el texto la fuente de información más completa. Una posible forma de dividir el documento en diferentes componentes es utilizar un enfoque de visión por ordenador. Un modelo de reconocimiento de objetos multiclase puede distinguir automáticamente entre los distintos elementos del informe anual. Todos los contenidos pueden dividirse en cinco categorías: Título, texto, tabla, lista y figura. Sólo las localizaciones encontradas de la categoría Texto se utilizan para los siguientes pasos del proceso de resumen.

2. conversión de la imagen en texto con OCR

El siguiente paso consiste en convertir los cuadros delimitadores seleccionados del documento en texto. Esta parte puede definirse como un problema de reconocimiento óptico de caracteres (OCR) resuelto mediante herramientas establecidas. Por supuesto, este paso puede omitirse si los documentos ya tienen incrustaciones de texto. Sin embargo, a menudo es necesario leer en tablas o documentos escaneados, por ejemplo. En nuestra solución de software, los usuarios pueden decidir para cada proyecto si desean utilizar incrustaciones de texto, Tesseract o un OCR comercial.

3. resumen de texto de cualquier apartado

El último paso consiste en resumir el contenido seleccionado. Aquí es donde entran en juego los llamados transformadores, que últimamente han demostrado ser modelos potentes. Utilizamos el modelo BERT personalizado PEGASUS, desarrollado específicamente para resúmenes automáticos. El resultado nos muestra una versión resumida del párrafo que hemos reconocido en los primeros pasos y extraído del informe. La longitud original de 910 caracteres se ha reducido a 193 caracteres, lo que supone un ahorro de tiempo de casi 80%. No obstante, se incluye toda la información pertinente para comprender el párrafo.

Este método reduce los párrafos de un archivo PDF en 80 %.

El resultado del resumen automático de texto con el modelo PEGASUS de un párrafo extraído del informe anual nos muestra un buen resultado. Vamos a repasarlo para comprobar qué tipo de aspectos incluye: Nombre de la empresa, probabilidad de un suceso, importe de la multa, nombre de la comisión.

Resumen de texto con PEGASUS y R-CNN más rápido whitepaper




    ¿Quiere saber más ahora?

    ¿Cómo utilizar el reconocimiento de objetos para la segmentación de páginas?

    El reconocimiento de objetos es una tarea que identifica objetos de una clase conocida en la imagen y proporciona información sobre su ubicación. Una arquitectura muy conocida para esta tarea es la Faster R-CNN. Esta arquitectura tiene dos salidas para cada objeto: una etiqueta de clase y un cuadro delimitador. Consta de dos módulos: una red profunda totalmente convolucional para sugerir regiones y una R-CNN rápida que detecta objetos en estas regiones.

    La R-CNN más rápida tiene dos salidas para cada objeto: una etiqueta de clase y un cuadro delimitador.

    El funcionamiento consiste en introducir una imagen de entrada en una red convolucional que crea un mapa de características de la imagen. A continuación, una red independiente (la red de propuestas de regiones) toma este mapa de características y predice posibles regiones para los objetos (propuestas de regiones). Estas sugerencias de regiones se envían a una capa de agrupación de ROI, que las transforma en un tamaño predefinido. Por último, el vector de salida de la capa de agrupación se utiliza para clasificar las regiones sugeridas y refinar los recuadros delimitadores.

    Más recientemente, Mask R-CNN, que es una extensión de Faster R-CNN, ha añadido una tercera salida que permite obtener la máscara del objeto. El resultado es la clasificación, el cuadro delimitador y la máscara del objeto. La predicción de la máscara se realiza en paralelo con la predicción de la clase y el cuadro delimitador [2].

     Afinando un modelo R-CNN de máscara entrenado en PubLayNet, podemos tener un modelo que nos permita detectar aquellas partes de los documentos que corresponden a texto.

    El objetivo es seleccionar sólo las partes relevantes del informe, en nuestro caso los párrafos de texto. Otras partes que ya contienen resúmenes, como los títulos o las tablas, no son relevantes. Así que lo primero que necesitamos es un conjunto de datos anotado con los distintos elementos del documento. PubLayNet es un conjunto de datos con anotaciones de texto, figuras, títulos, listas y tablas de más de 360.000 páginas de artículos científicos [3]. Afinando un modelo mask-R-CNN entrenado sobre PubLayNet, obtenemos un modelo que nos permite reconocer las partes de los documentos que corresponden a texto. El modelo que utilizamos está disponible en la plataforma Detectron2, una plataforma de Facebook AI Research que permite probar rápidamente algoritmos de última generación [4]. En la figura, vemos los recuadros delimitadores y la clasificación mostrada con un color diferente para cada clase, que fue el resultado sin ningún ajuste fino. Para nuestro problema, no nos interesa la máscara del texto, sino sólo el cuadro delimitador marcado en azul.

    Regístrese gratuitamente y pruebe la API de segmentación de páginas con sus propios documentos. Regístrese para acceder a la documentación de nuestra API. Con nuestra herramienta de etiquetado de documentos, puede crear un conjunto de datos y ajustar el modelo PubLayNet en sus propios documentos.

    API Konfuzio para segmentar páginas mediante R-CNN más rápido.

    ¿Cuál es el mejor motor de OCR?

    Tras encontrar la parte de las imágenes que nos interesa, el siguiente paso es extraer el texto de las imágenes mediante el reconocimiento óptico de caracteres (OCR). El OCR puede realizarse mediante enfoques de visión por ordenador, que pueden incluir el reconocimiento, la segmentación y la detección de caracteres, pero los enfoques más recientes implican una combinación de CNN y redes neuronales recurrentes.

    Un ejemplo de canalización de OCR puede ser:

    • Reconocimiento de texto: reconoce dónde se encuentran los caracteres
    • Preprocesamiento: normalización del texto
    • Extracción de características: el resultado es el mapa de características de la imagen.
    • Postprocesamiento - Los errores pueden corregirse, por ejemplo, comparándolos con secuencias de palabras más frecuentes.

    ¿Cómo funciona el resumen de texto?

    En la actualidad, la síntesis se realiza habitualmente con modelos Transformer. Los transformadores son un tipo de arquitectura de red neuronal introducida en 2017. Originalmente se desarrollaron para la traducción automática, pero ahora se utilizan para casi todas las aplicaciones modernas de PNL, como: Reconocimiento de entidades, inferencia en lenguaje natural, respuesta a preguntas y resumen. Los transformadores son capaces de procesar todos los datos entrantes en paralelo, en comparación con los modelos anteriores de última generación, los LSTM, que procesan los datos secuencialmente. Esta capacidad de paralelización facilita el escalado con una cantidad de potencia de cálculo y datos que crece exponencialmente.

    El nuevo concepto más importante introducido en la arquitectura Transformer es el uso de la "atención multicabezal". En el Transformador, cada elemento de la secuencia de entrada se divide en tres vectores: Q, K y V. La atención se calcula como la suma ponderada de estos vectores, donde las ponderaciones son tanto aprendidas como dependientes del contexto. En otras palabras, los datos que se introducen en el modelo deciden dónde éste debe centrar su atención. La atención multicabezal significa que dividimos cada vector en varias "cabezas" y calculamos la atención de cada cabeza en paralelo. Así que hacemos varios cálculos de atención a la vez, todos en paralelo, antes de fusionar los resultados en la salida. [5]

    La variante de Transformer más utilizada se denomina BERT. BERT utiliza únicamente el codificador del Transformer original con cambios muy pequeños en la arquitectura. La principal innovación de BERT es que se ha entrenado como un "modelo lingüístico enmascarado" en una gran cantidad de texto sin marcar. Los modelos de lenguaje enmascarado se encargan de rellenar los espacios en blanco de una frase dada, es decir, sustituyen algunas de las palabras de una frase por un token [MASK] y luego intentan predecir cuál era la palabra real. Resulta que esta tarea enseña mucho al modelo sobre el lenguaje natural, tanto que ahora es habitual tomar un modelo BERT preentrenado y luego ajustarlo a la tarea deseada. Suele ser un buen punto de partida cuando se prueban redes neuronales para la PNL, y la mayor parte de la investigación en PNL se centra ahora en cómo mejorar los modelos Transformer y sus variantes, ya sea optimizando la arquitectura o inventando un nuevo objetivo de preentrenamiento.

    PEGASUS es un modelo desarrollado para resúmenes automáticos. La arquitectura es similar a la del Transformador original con el Decodificador, pero está preentrenado en dos tareas simultáneamente. La primera es la tarea de modelado lingüístico enmascarado introducida por el BERT. La segunda tarea es la predicción de una frase completa enmascarada en la entrada. En primer lugar, PEGASUS se entrena previamente con una enorme cantidad de texto (1.500 millones de artículos de noticias) y, a continuación, se perfecciona con el conjunto de datos objetivo. Obtuvo el mejor rendimiento en doce conjuntos de datos resumidos de uso común. [6].

    Fuentes:

    [1] He, K. et al. (2017). Máscara R-CNN. Facebook AI Research (FAIR).

    [2] Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Hacia la detección de objetos en tiempo real con redes de propuesta de regiones. 

    [3] Zhong, X., Tang, J., & Yepes, A. (2019). PubLayNet: el mayor conjunto de datos jamás creado para el análisis del diseño de documentos. En 2019 International Conference on Document Analysis and Recognition (ICDAR) (pp. 1015-1022). 

    [4] Yuxin Wu, et al. (2019). Repositorio Github de Detectron2.

    [5] Vaswani, A. et al. (2017). Atención es todo lo que necesitas. 

    [6] Zhang, J. et al (2020). Pegasus: preentrenamiento con frases-brecha extraídas para el resumen de resúmenes. En International Conference on Machine Learning (pp. 11328-11339). PMLR.


    "
    "
    Avatar de Maximilian Schneider

    Últimos artículos