Lors de la création du jeu de données FUNSD+, nous voulions élargir le FUNSD. En outre, nous voulions configurer l'outil d'étiquetage de manière à ce que le jeu de données FUNSD+ puisse être copié, c.-à-d. "forked" d'une certaine manière, afin que d'autres chercheurs puissent inspecter, modifier ou étendre le FUNSD+. Annotations visuellement ou via le code, voir Exemple de document en direct.
Comment accéder à l'ensemble de données FUNSD+ ?
- S'inscrire sur app.konfuzio.com
- Créer un ticket d'assistance
Request access to FUNSD+ : Provide the correct e-mail that is linked to your app.konfuzio.com account.
- Vous recevrez une invitation par e-mail.
Nous vous enverrons un e-mail d'invitation pour accéder au dataset via la plateforme Konfuzio. Vous devez vous inscrire pour créer un compte.
- Utilise le Konfuzio Python SDK pour télécharger les données.
Vous pouvez explorer le dataset à partir de la plateforme en mode lecture seule et ensuite le télécharger en utilisant le Konfuzio SDK. Il suffit de l'installer via
pip install konfuzio_sdk
et l'initialise dans le dossier où vous souhaitez télécharger les données aveckonfuzio_sdk init
. Téléchargez ensuite le jeu de données aveckonfuzio_sdk export_projet 11984
. - Erreurs
Si vous ne pouvez pas utiliser le SDK, nous vous préparerons un autre téléchargement, mais nous ne l'avons pas encore prêt car nous fournissons le téléchargement avec le SDK par défaut.
Cet article a été rédigé en allemand, il a été automatiquement traduit dans d'autres langues et traduit en français. Nous vous invitons à nous faire part de vos commentaires à la fin de l'article.
Jeu de données FUNSD en arrière-plan
Nous valorisons fortement le FUNSD dataset by Jaume et al. (2019) for form understanding in noisy scanned documents. Guillaume Jaume publié le dataset sur sa page d'accueil. Elle est autorisée à être utilisée à des fins non commerciales, de recherche et d'éducation, voir licence. Le dataset FUNSD est un sous-ensemble de documents publiés sous le nom de RVL-CDIP. RVL-CPID a été introduit par Harley et al. (2015).
Nombre approximatif d'articles en accès libre mentionnant le dataset au cours des cinq dernières années.

Les chiffres sont basés sur Papiers avec code
Pour construire la base de données FUNSD, nous avons vérifié manuellement les 25 000 images de la catégorie des formulaires. Nous avons éliminé les formulaires illisibles et les formulaires similaires, ce qui nous a permis d'obtenir 3 200 documents éligibles, dont 199 ont été choisis au hasard pour être annotés..
Jaume et al. (2019)
Même le jeu de données FUNSD se rapporte à une niche de l'IA, à savoir Document AI, environ 200 personnes recherchent "FUNSD" chaque mois.

Combien de fois par mois les gens font des recherches "FUNSD" on Google.
FUNSD contre FUNSD+
Tout en annotant les documents d'une seule page, nous avons intégré les recherches les plus récentes. Vu et al. (2020) reports to have found several inconsistency in labeling, which might impede the FUNSD applicability to the key-value extraction problem.
FUNSD+ donne accès à davantage de documents
Outre l'augmentation de 199 documents à 1113 documents, nous résumons ci-dessous les caractéristiques des deux datasets. Les statistiques de l'ensemble de données FUNSD sont extraites du document de Jaume et al. (2019).
FUNSD | FUNSD+ (EN ANGLAIS) | |
---|---|---|
Documents | 199 | 1113 |
headers | 563 | 1604 |
questions | 4343 | 14695 |
réponses | 3623 | 12154 |
questions sans réponses | 720 (16.6%) | 2691 (18.3%) |
answers without questions* | 0 | 114 (0.9%) |
* (basically Independent checkboxes in the table above)
FUNSD+ donne accès à davantage de documents
Comme décrit dans le tableau 1, le nombre moyen d'en-têtes, de questions et de réponses par document diffère. Dans le tableau 2, nous résumons les principales différences lors de l'annotation des documents. Ensuite, nous présenterons un certain nombre de documents à l'aide de captures d'écran de l'interface d'annotation.
FUNSD | FUNSD+ (EN ANGLAIS) | |
---|---|---|
Réponses manuscrites | Oui, généralement de bonne qualité | Oui si bonne OCR, sinon document exclu |
Signatures | Inclus même si illisible | Oui si bonne OCR, sinon laissé en blanc (nous le déclarons illisible par omission) |
Cases à cocher | Toutes les réponses sont incluses, plus le signe du checkmark | Seule la réponse correcte est liée à la question. Cela permet d'obtenir une paire question-réponse propre, sans autre post-traitement nécessaire. |
Cases à cocher indépendantes | Marque la marque de contrôle comme la réponse et la réponse textuelle comme une question. Les réponses non cochées sont des questions sans réponse. | Seule la réponse cochée est annotée comme une réponse, le reste est étiqueté "Autre" car il ne répond à aucune question. |
Tables | Lie toutes les rangées d'un tableau à la même colonne, il est donc impossible de faire la différence entre plusieurs rangées. | Gauche non annoté et étiqueté "Other". Dans une prochaine version, la structure AnnotationSet appropriée aurait des étiquettes "Table column/row header" associées à une seule cellule avec l'étiquette "Table Cell Answer". |
En-têtes | Full | Pas de brackets, considérés comme des commentaires sur les en-têtes |
Colons flottants | Yes | No |
Texte/commentaires non pertinents inclus dans les réponses/questions | Oui, entièrement annoté | Non, uniquement des informations propres issues de Question-Answers pairs |
Edge cases / cas ambigus | Parfois beaucoup d'éléments interconnectés, avec une structure qu'il n'est pas possible de comprendre | Document exclu de l'ensemble de données |
Exemple de document en direct
JSON

Document UI

FUNSD vs. FUNSD+ exemples visuels
Lignes multiples
FUNSD lie toutes les rangées d'un tableau à la même colonne, il est donc impossible de faire la différence entre plusieurs rangées. Nous n'avons pas annoté les tables pour l'instant. Cependant, nous pourrions étendre le dataset et annoter les tables en utilisant le concept de Sets d'étiquettes.

Utilisation des en-têtes
FUNSD lie les en-têtes aux questions de manière incohérente. FUNSD+ essaie de réduire le nombre d'en-têtes et de n'utiliser que des en-têtes annotés qui se rapportent clairement au contenu qui les suit.

Annotation de la réponse
FUNSD lie toutes les réponses multiples à une question, même en incluant le symbole du checkmark, ne fournissant ainsi pas d'informations claires sur la bonne réponse.

Checkmarks
FUNSD annote le checkmark comme la réponse et la réponse textuelle comme une question (Independent Checkboxes). FUNSD+ annote le texte de la case à cocher sélectionnée.

Exclure le texte avec des erreurs d'OCR
FUNSD inclut les signatures illisibles, FUNSD+ n'annote pas le texte qui ne peut pas être reconnu correctement par l'OCR.

Réduire le nombre d'annotations
Le FUNSD inclut certains cas limites / ambigus, où parfois de nombreux éléments sont interconnectés, avec une structure qui n'est pas compréhensible. FUNSD+ préfère ne pas annoter les cas ambigus.

Accès à l'ensemble de données
Les données peuvent être téléchargées via notre SDK Python ou peut être hébergé de manière personnalisée comme une instance de la Konfuzio Serveur dans votre environnement. En outre, notre interface d'étiquetage vous permet de définir facilement des Annotations et structures relationnelles d'entités besides Key Value Pair Labeling comme dans FUNSD. Vous pouvez ainsi construire et gérer des ensembles de données individuels. Vous trouverez plus d'exemples pour invoices, remittance advice ou car registration documents sur notre site.
Comment citer ?
Zagami, D., & Helm, C. (2022, Octobre 18). LE FUNSD+ : Un ensemble de données FUNSD plus grand et révisé. Retrieved November 5, 2022, from http://konfuzio.com/en/funsd-plus/
@misc{zagami_helm_2022,
title = {FUNSD+ : A larger and revised FUNSD dataset},
author = {Zagami, Davide et Helm, Christopher},
year = 2022,
mois = {Oct},
journal = {FUNSD+ | A larger and revised FUNSD dataset},
publisher = {Helm & Nagel GmbH},
url = {http://konfuzio.com/funsd-plus/}
}
Références
Harley, A. W., Ufkes, A., & Derpanis, K. G. (2015, août). Évaluation des réseaux convolutionnels profonds pour la classification et la récupération d'images de documents. In 2015 13th International Conference on Document Analysis and Recognition (ICDAR) (pp. 991-995). IEEE. Lien vers le PDF.
Jaume, G., Ekenel, H. K., & Thiran, J.-P. (2019). FUNSD : Un ensemble de données pour la compréhension des formes dans les documents numérisés bruyants. CoRR, abs/1905.13538.
Vu, Hieu & Nguyen, Diep. (2020). Revising FUNSD dataset for key-value detection in document images.