Al crear el conjunto de datos FUNSD+, nuestro objetivo era ampliar el FUNSD. Además, queríamos configurar la herramienta de etiquetado para que el conjunto de datos FUNSD+ pueda copiarse, es decir, "bifurcarse" de alguna manera, para que otros investigadores puedan inspeccionar, editar o ampliar el FUNSD+. Anotaciones visualmente o mediante código, véase Ejemplo de documento activo.
¿Cómo acceder al conjunto de datos FUNSD+?
- Regístrese en app.konfuzio.com
- Crear un Ticket de Soporte
Solicitar acceso a FUNSD+: Proporcione el correo electrónico correcto que está vinculado a su cuenta app.konfuzio.com.
- Recibirá una invitación por correo electrónico.
Le enviaremos un correo electrónico de invitación para acceder al conjunto de datos a través de la plataforma Konfuzio. Es necesario registrar una cuenta.
- Utilice la Konfuzio SDK de Python para descargar los datos.
Puede explorar el conjunto de datos desde la plataforma en modo de sólo lectura y luego descargarlo utilizando la función Konfuzio SDK. Sólo tiene que instalarlo a través de
pip install confuzio_sdk
e inicialícelo en la carpeta en la que desea descargar los datos conconfucio_sdk init
. A continuación, descargue el conjunto de datos conconfucio_sdk exporta_proyecto 11984
. - Errores
Si no puedes utilizar el SDK, prepararemos otra descarga para ti, pero aún no la tenemos lista ya que proporcionamos la descarga con el SDK por defecto.
Este artículo ha sido traducido al alemán y se ha traducido automáticamente a otros idiomas. Nos complacerá recibir sus comentarios al final del artículo.
Antecedentes del conjunto de datos FUNSD
Valoramos mucho la Conjunto de datos FUNSD de Jaume et al. (2019) para la comprensión de formas en documentos escaneados con ruido. Guillaume Jaume publicó el conjunto de datos en su página web. Se autoriza su uso con fines no comerciales, de investigación y educativos, véase licencia. El conjunto de datos FUNSD es un subconjunto de documentos publicados como RVL-CDIP. RVL-CPID fue introducido por Harley et al (2015).
Número aproximado de artículos de libre acceso que mencionan el conjunto de datos en los últimos cinco años.

Las cifras se basan en Documentos con código
Para construir el conjunto de datos FUNSD, comprobamos manualmente las 25.000 imágenes de la categoría de formularios. Se descartaron los formularios ilegibles y similares, con lo que se obtuvieron 3.200 documentos elegibles, de los que se tomaron al azar 199 para anotarlos..
Jaume et al. (2019)
Incluso el conjunto de datos FUNSD se refiere a un nicho de la IA, es decir. Documento AIaproximadamente 200 personas buscan "FUNSD" cada mes.

Cuántas veces al mes se busca "FUNSD" en Google.
FUNSD frente a FUNSD+
Al anotar los documentos de una sola página incorporamos las últimas investigaciones. Vu et al. (2020) informa de haber encontrado varias incoherencias en el etiquetado, que podrían impedir la aplicabilidad de FUNSD al problema de extracción de valores clave.
FUNSD+ da acceso a más documentos
Además del aumento de 199 a 1113 documentos, resumimos a continuación las características de ambos conjuntos de datos. Las estadísticas del conjunto de datos FUNSD se han recuperado del Paper de Jaume et al. (2019).
FUNSD | FUNSD+ | |
---|---|---|
Documentos | 199 | 1113 |
cabeceras | 563 | 1604 |
preguntas | 4343 | 14695 |
respuestas | 3623 | 12154 |
preguntas sin respuesta | 720 (16.6%) | 2691 (18.3%) |
respuestas sin preguntas* | 0 | 114 (0.9%) |
* (básicamente Casillas de verificación independientes en la tabla anterior)
FUNSD+ da acceso a más documentos
Como se describe en el Cuadro 1, el número medio de encabezamientos, preguntas y respuestas por documento es diferente. En la Tabla 2 resumimos las principales diferencias a la hora de anotar los documentos. A continuación, realizaremos una demostración de un número seleccionado de documentos mediante capturas de pantalla de la interfaz de usuario de anotación.
FUNSD | FUNSD+ | |
---|---|---|
Respuestas escritas a mano | Sí, normalmente de buena calidad | Sí, si el OCR es bueno; de lo contrario, documento excluido |
Firmas | Incluido aunque sea ilegible | Sí cuando el OCR es bueno, de lo contrario se deja en blanco (lo declaramos ilegible por omisión) |
Casillas de verificación | Todas las respuestas incluidas, más el signo de verificación | Única respuesta correcta relacionada con la pregunta. Esto proporciona un par Pregunta-Respuesta limpio sin necesidad de postprocesamiento adicional. |
Casillas independientes | Marca la casilla como respuesta y la respuesta textual como pregunta. Las respuestas sin marcar son preguntas sin respuesta. | Sólo la respuesta marcada se anota como respuesta, el resto recibe la etiqueta "Otros", ya que no responde a ninguna pregunta. |
Tablas | Vincula todas las filas de una tabla a la misma columna, por lo que es imposible diferenciar entre varias filas. | Se deja sin anotar y se etiqueta como "Otros". En una próxima versión, la estructura AnnotationSet adecuada tendría etiquetas de "Encabezado de columna/fila de tabla" asociadas a una única celda con etiqueta "Respuesta de celda de tabla". |
Cabeceras | Completo | Sin corchetes, se consideran comentarios a las cabeceras |
Dos puntos finales | Sí | No |
Texto/comentarios irrelevantes incluidos en las respuestas/preguntas | Sí, totalmente anotado | No, sólo información limpia de pares Pregunta-Respuesta |
Casos límite / casos ambiguos | A veces muchos elementos interconectados, con una estructura que no es capaz de entenderse | Documento excluido del conjunto de datos |
Ejemplo de documento activo
JSON

Document UI

FUNSD vs. FUNSD+ ejemplos visuales
Varias filas
FUNSD vincula todas las filas de una tabla a la misma columna, por lo que es imposible diferenciar entre varias filas. Por ahora no anotamos las tablas. Sin embargo, podríamos ampliar el conjunto de datos y anotar tablas utilizando el concepto de Juegos de etiquetas.

Uso de cabeceras
FUNSD vincula los encabezados a las preguntas de forma incoherente. FUNSD+ intenta reducir el número de cabeceras y sólo anota las cabeceras que relacionan claramente el contenido que tienen al lado.

Anotar la respuesta
FUNSD vincula todas las respuestas múltiples a una pregunta, incluyendo incluso el símbolo de la marca de verificación, por lo que no proporciona información limpia sobre la respuesta correcta.

Marcas de verificación
FUNSD anota la marca de verificación como respuesta y la respuesta textual como pregunta (Casillas de verificación independientes). FUNSD+ anota el texto de la casilla seleccionada.

Excluir texto con errores de OCR
FUNSD incluye firmas ilegibles, FUNSD+ no anota texto que no pueda ser reconocido correctamente por el OCR.

Reducir el número de anotaciones
FUNSD incluye algunos casos de borde / casos ambiguos, donde a veces muchos elementos están interconectados, con una estructura que no es capaz de ser entendida. FUNSD+ prefiere no anotar los casos ambiguos.

Acceso al conjunto de datos
Los datos pueden descargarse a través de nuestra SDK de Python o puede alojarse de forma personalizada como una instancia de la aplicación Servidor Konfuzio en su entorno. Además, nuestra interfaz de etiquetado le permite definir fácilmente Anotaciones y estructuras de relaciones entre entidades además del etiquetado de pares clave-valor como en FUNSD. Así podrá crear y mantener conjuntos de datos individuales. Encontrará más ejemplos en facturas, aviso de remesa o matriculación de vehículos documentos en nuestro hompeage.
¿Cómo citar?
Zagami, D., & Helm, C. (2022, 18 de octubre). FUNSD+: Un conjunto de datos FUNSD más amplio y revisado. Obtenido el 5 de noviembre de 2022, del sitio Web: https://konfuzio.com/en/funsd-plus/
@misc{zagami_helm_2022,
title = {FUNSD+: Un conjunto de datos FUNSD más amplio y revisado},
autor = {Zagami, Davide y Helm, Christopher},
año = 2022,
mes = {Oct},
journal = {FUNSD+ | Un conjunto de datos FUNSD más amplio y revisado},
editor = {Helm & Nagel GmbH},
url = {https://konfuzio.com/funsd-plus/}
}
Referencias
Harley, A. W., Ufkes, A., & Derpanis, K. G. (2015, agosto). Evaluación de redes convolucionales profundas para la clasificación y recuperación de imágenes de documentos. En 2015 13th International Conference on Document Analysis and Recognition (ICDAR) (pp. 991-995). IEEE. Enlace al PDF.
Jaume, G., Ekenel, H. K., & Thiran, J.-P. (2019). FUNSD: Un conjunto de datos para la comprensión de formas en documentos escaneados con ruido. CDR, abs/1905.13538.
Vu, Hieu & Nguyen, Diep. (2020). Revisión del conjunto de datos FUNSD para la detección de valores clave en imágenes de documentos.
Schreibe einen Kommentar