FUNSD+ | Un conjunto de datos FUNSD más amplio y revisado

Al crear el conjunto de datos FUNSD+, nuestro objetivo era ampliar el FUNSD. Además, queríamos configurar la herramienta de etiquetado para que el conjunto de datos FUNSD+ pueda copiarse, es decir, "bifurcarse" de alguna manera, para que otros investigadores puedan inspeccionar, editar o ampliar el FUNSD+. Anotaciones visualmente o mediante código, véase Ejemplo de documento activo.

¿Cómo acceder al conjunto de datos FUNSD+?

  1. Regístrese en app.konfuzio.com

  2. Crear un Ticket de Soporte

    Solicitar acceso a FUNSD+: Proporcione el correo electrónico correcto que está vinculado a su cuenta app.konfuzio.com.

  3. Recibirá una invitación por correo electrónico.

    Le enviaremos un correo electrónico de invitación para acceder al conjunto de datos a través de la plataforma Konfuzio. Es necesario registrar una cuenta.

  4. Utilice la Konfuzio SDK de Python para descargar los datos.

    Puede explorar el conjunto de datos desde la plataforma en modo de sólo lectura y luego descargarlo utilizando la función Konfuzio SDK. Sólo tiene que instalarlo a través de pip install confuzio_sdk e inicialícelo en la carpeta en la que desea descargar los datos con konfuzio_sdk init. A continuación, descargue el conjunto de datos con konfuzio_sdk exporta_proyecto 11984.

  5. Errores

    Si no puedes utilizar el SDK, prepararemos otra descarga para ti, pero aún no la tenemos lista ya que proporcionamos la descarga con el SDK por defecto.


Antecedentes del conjunto de datos FUNSD

Valoramos mucho la Conjunto de datos FUNSD de Jaume et al. (2019) para la comprensión de formas en documentos escaneados con ruido. Guillaume Jaume publicó el conjunto de datos en su página web. Se autoriza su uso con fines no comerciales, de investigación y educativos, véase licencia. El conjunto de datos FUNSD es un subconjunto de documentos publicados como RVL-CDIP. RVL-CPID fue introducido por Harley et al (2015).

Número aproximado de artículos de libre acceso que mencionan el conjunto de datos en los últimos cinco años.

Las cifras se basan en Documentos con código

Para construir el conjunto de datos FUNSD, comprobamos manualmente las 25.000 imágenes de la categoría de formularios. Se descartaron los formularios ilegibles y similares, con lo que se obtuvieron 3.200 documentos elegibles, de los que se tomaron al azar 199 para anotarlos..

Jaume et al. (2019)

Incluso el conjunto de datos FUNSD se refiere a un nicho de la IA, es decir. Documento AIaproximadamente 200 personas buscan "FUNSD" cada mes.

Volumen de búsqueda de FUNSD. Cuántas veces al mes se busca "FUNSD" en Google.

Cuántas veces al mes se busca "FUNSD" en Google.

FUNSD frente a FUNSD+

Al anotar los documentos de una sola página incorporamos las últimas investigaciones. Vu et al. (2020) informa de haber encontrado varias incoherencias en el etiquetado, que podrían impedir la aplicabilidad de FUNSD al problema de extracción de valores clave.

FUNSD+ da acceso a más documentos

Además del aumento de 199 a 1113 documentos, resumimos a continuación las características de ambos conjuntos de datos. Las estadísticas del conjunto de datos FUNSD se han recuperado del Paper de Jaume et al. (2019).

FUNSDFUNSD+
Documentos1991113
cabeceras5631604
preguntas434314695
respuestas362312154
preguntas sin respuesta720 (16.6%)2691 (18.3%)
respuestas sin preguntas*0114 (0.9%)
Cuadro 1: Estadísticas FUNSD frente a FUNSD+.

* (básicamente Casillas de verificación independientes en la tabla anterior)

FUNSD+ da acceso a más documentos

Como se describe en el Cuadro 1, el número medio de encabezamientos, preguntas y respuestas por documento es diferente. En la Tabla 2 resumimos las principales diferencias a la hora de anotar los documentos. A continuación, realizaremos una demostración de un número seleccionado de documentos mediante capturas de pantalla de la interfaz de usuario de anotación.

FUNSDFUNSD+
Respuestas escritas a manoSí, normalmente de buena calidadSí, si el OCR es bueno; de lo contrario, documento excluido
FirmasIncluido aunque sea ilegibleSí cuando el OCR es bueno, de lo contrario se deja en blanco (lo declaramos ilegible por omisión)
Casillas de verificaciónTodas las respuestas incluidas, más el signo de verificaciónÚnica respuesta correcta relacionada con la pregunta. Esto proporciona un par Pregunta-Respuesta limpio sin necesidad de postprocesamiento adicional.
Casillas independientesMarca la casilla como respuesta y la respuesta textual como pregunta. Las respuestas sin marcar son preguntas sin respuesta.Sólo la respuesta marcada se anota como respuesta, el resto recibe la etiqueta "Otros", ya que no responde a ninguna pregunta.
TablasVincula todas las filas de una tabla a la misma columna, por lo que es imposible diferenciar entre varias filas.Se deja sin anotar y se etiqueta como "Otros". En una próxima versión, la estructura AnnotationSet adecuada tendría etiquetas de "Encabezado de columna/fila de tabla" asociadas a una única celda con etiqueta "Respuesta de celda de tabla".
CabecerasCompletoSin corchetes, se consideran comentarios a las cabeceras
Dos puntos finalesNo
Texto/comentarios irrelevantes incluidos en las respuestas/preguntasSí, totalmente anotadoNo, sólo información limpia de pares Pregunta-Respuesta
Casos límite / casos ambiguosA veces muchos elementos interconectados, con una estructura que no es capaz de entenderseDocumento excluido del conjunto de datos

Ejemplo de documento activo

JSON

Ejemplo de formato JSON: Visita https://git.konfuzio.com/-/snippets/33

Document UI

Visite https://app.konfuzio.com/d/303962/

FUNSD vs. FUNSD+ ejemplos visuales

Varias filas

FUNSD vincula todas las filas de una tabla a la misma columna, por lo que es imposible diferenciar entre varias filas. Por ahora no anotamos las tablas. Sin embargo, podríamos ampliar el conjunto de datos y anotar tablas utilizando el concepto de Juegos de etiquetas.

Comparación entre FUNSD y FUNSD

Uso de cabeceras

FUNSD vincula los encabezados a las preguntas de forma incoherente. FUNSD+ intenta reducir el número de cabeceras y sólo anota las cabeceras que relacionan claramente el contenido que tienen al lado.

Comparación entre FUNSD y FUNSD

Anotar la respuesta

FUNSD vincula todas las respuestas múltiples a una pregunta, incluyendo incluso el símbolo de la marca de verificación, por lo que no proporciona información limpia sobre la respuesta correcta.

Comparación entre FUNSD y FUNSD

Marcas de verificación

FUNSD anota la marca de verificación como respuesta y la respuesta textual como pregunta (Casillas de verificación independientes). FUNSD+ anota el texto de la casilla seleccionada.

Comparación entre FUNSD y FUNSD

Excluir texto con errores de OCR

FUNSD incluye firmas ilegibles, FUNSD+ no anota texto que no pueda ser reconocido correctamente por el OCR.

Comparación entre FUNSD y FUNSD

Reducir el número de anotaciones

FUNSD incluye algunos casos de borde / casos ambiguos, donde a veces muchos elementos están interconectados, con una estructura que no es capaz de ser entendida. FUNSD+ prefiere no anotar los casos ambiguos.

Comparación entre FUNSD y FUNSD

Acceso al conjunto de datos

Los datos pueden descargarse a través de nuestra SDK de Python o puede alojarse de forma personalizada como una instancia de la aplicación Servidor Konfuzio en su entorno. Además, nuestra interfaz de etiquetado le permite definir fácilmente Anotaciones y estructuras de relaciones entre entidades además del etiquetado de pares clave-valor como en FUNSD. Así podrá crear y mantener conjuntos de datos individuales. Encontrará más ejemplos en facturas, aviso de remesa o matriculación de vehículos documentos en nuestro hompeage.

¿Cómo citar?

Zagami, D., & Helm, C. (2022, 18 de octubre). FUNSD+: A larger and revised FUNSD dataset. Obtenido el 5 de noviembre de 2022, del sitio Web: http://konfuzio.com/en/funsd-plus/.

@misc{zagami_helm_2022,
title = {FUNSD+: Un conjunto de datos FUNSD más amplio y revisado},
autor = {Zagami, Davide y Helm, Christopher},
año = 2022,
mes = {Oct},
journal = {FUNSD+ | Un conjunto de datos FUNSD más amplio y revisado},
editor = {Helm & Nagel GmbH},
url = {http://konfuzio.com/funsd-plus/}
}

Referencias

Harley, A. W., Ufkes, A., & Derpanis, K. G. (2015, agosto). Evaluación de redes convolucionales profundas para la clasificación y recuperación de imágenes de documentos. En 2015 13th International Conference on Document Analysis and Recognition (ICDAR) (pp. 991-995). IEEE. Enlace al PDF.

Jaume, G., Ekenel, H. K., & Thiran, J.-P. (2019). FUNSD: Un conjunto de datos para la comprensión de formas en documentos escaneados con ruido. CDRabs/1905.13538.

Vu, Hieu & Nguyen, Diep. (2020). Revisión del conjunto de datos FUNSD para la detección de valores clave en imágenes de documentos.

"
"
Avatar de Maximilian Schneider

Últimos artículos