FUNSD+ | Un jeu de données FUNSD plus grand et révisé

Maximilien Schneider

Lors de la création du jeu de données FUNSD+, nous voulions élargir le FUNSD. En outre, nous voulions configurer l'outil d'étiquetage de manière à ce que le jeu de données FUNSD+ puisse être copié, c.-à-d. "forked" d'une certaine manière, afin que d'autres chercheurs puissent inspecter, modifier ou étendre le FUNSD+. Annotations visuellement ou via le code, voir Exemple de document en direct.

Comment accéder à l'ensemble de données FUNSD+ ?

  1. S'inscrire sur app.konfuzio.com

  2. Créer un ticket d'assistance

    Request access to FUNSD+ : Provide the correct e-mail that is linked to your app.konfuzio.com account.

  3. Vous recevrez une invitation par e-mail.

    Nous vous enverrons un e-mail d'invitation pour accéder au dataset via la plateforme Konfuzio. Vous devez vous inscrire pour créer un compte.

  4. Utilise le Konfuzio Python SDK pour télécharger les données.

    Vous pouvez explorer le dataset à partir de la plateforme en mode lecture seule et ensuite le télécharger en utilisant le Konfuzio SDK. Il suffit de l'installer via pip install konfuzio_sdk et l'initialise dans le dossier où vous souhaitez télécharger les données avec konfuzio_sdk init. Téléchargez ensuite le jeu de données avec konfuzio_sdk export_projet 11984.

  5. Erreurs

    Si vous ne pouvez pas utiliser le SDK, nous vous préparerons un autre téléchargement, mais nous ne l'avons pas encore prêt car nous fournissons le téléchargement avec le SDK par défaut.


Jeu de données FUNSD en arrière-plan

Nous valorisons fortement le FUNSD dataset by Jaume et al. (2019) for form understanding in noisy scanned documents. Guillaume Jaume publié le dataset sur sa page d'accueil. Elle est autorisée à être utilisée à des fins non commerciales, de recherche et d'éducation, voir licence. Le dataset FUNSD est un sous-ensemble de documents publiés sous le nom de RVL-CDIP. RVL-CPID a été introduit par Harley et al. (2015).

Nombre approximatif d'articles en accès libre mentionnant le dataset au cours des cinq dernières années.

Les chiffres sont basés sur Papiers avec code

Pour construire la base de données FUNSD, nous avons vérifié manuellement les 25 000 images de la catégorie des formulaires. Nous avons éliminé les formulaires illisibles et les formulaires similaires, ce qui nous a permis d'obtenir 3 200 documents éligibles, dont 199 ont été choisis au hasard pour être annotés..

Jaume et al. (2019)

Même le jeu de données FUNSD se rapporte à une niche de l'IA, à savoir Document AI, environ 200 personnes recherchent "FUNSD" chaque mois.

Volume de recherche de FUNSD. Combien de fois par mois les gens recherchent "FUNSD" sur Google.

Combien de fois par mois les gens font des recherches "FUNSD" on Google.

FUNSD contre FUNSD+

Tout en annotant les documents d'une seule page, nous avons intégré les recherches les plus récentes. Vu et al. (2020) reports to have found several inconsistency in labeling, which might impede the FUNSD applicability to the key-value extraction problem.

FUNSD+ donne accès à davantage de documents

Outre l'augmentation de 199 documents à 1113 documents, nous résumons ci-dessous les caractéristiques des deux datasets. Les statistiques de l'ensemble de données FUNSD sont extraites du document de Jaume et al. (2019).

FUNSDFUNSD+ (EN ANGLAIS)
Documents1991113
headers5631604
questions434314695
réponses362312154
questions sans réponses720 (16.6%)2691 (18.3%)
answers without questions*0114 (0.9%)
Tableau 1 : Statistiques FUNSD vs. FUNSD+

* (basically Independent checkboxes in the table above)

FUNSD+ donne accès à davantage de documents

Comme décrit dans le tableau 1, le nombre moyen d'en-têtes, de questions et de réponses par document diffère. Dans le tableau 2, nous résumons les principales différences lors de l'annotation des documents. Ensuite, nous présenterons un certain nombre de documents à l'aide de captures d'écran de l'interface d'annotation.

FUNSDFUNSD+ (EN ANGLAIS)
Réponses manuscritesOui, généralement de bonne qualitéOui si bonne OCR, sinon document exclu
SignaturesInclus même si illisibleOui si bonne OCR, sinon laissé en blanc (nous le déclarons illisible par omission)
Cases à cocherToutes les réponses sont incluses, plus le signe du checkmarkSeule la réponse correcte est liée à la question. Cela permet d'obtenir une paire question-réponse propre, sans autre post-traitement nécessaire.
Cases à cocher indépendantesMarque la marque de contrôle comme la réponse et la réponse textuelle comme une question. Les réponses non cochées sont des questions sans réponse.Seule la réponse cochée est annotée comme une réponse, le reste est étiqueté "Autre" car il ne répond à aucune question.
TablesLie toutes les rangées d'un tableau à la même colonne, il est donc impossible de faire la différence entre plusieurs rangées.Gauche non annoté et étiqueté "Other". Dans une prochaine version, la structure AnnotationSet appropriée aurait des étiquettes "Table column/row header" associées à une seule cellule avec l'étiquette "Table Cell Answer".
En-têtesFullPas de brackets, considérés comme des commentaires sur les en-têtes
Colons flottantsYesNo
Texte/commentaires non pertinents inclus dans les réponses/questionsOui, entièrement annotéNon, uniquement des informations propres issues de Question-Answers pairs
Edge cases / cas ambigusParfois beaucoup d'éléments interconnectés, avec une structure qu'il n'est pas possible de comprendreDocument exclu de l'ensemble de données

Exemple de document en direct

JSON

Exemple de formatage JSON : Visite https://git.konfuzio.com/-/snippets/33

Document UI

Visitez https://app.konfuzio.com/d/303962/

FUNSD vs. FUNSD+ exemples visuels

Lignes multiples

FUNSD lie toutes les rangées d'un tableau à la même colonne, il est donc impossible de faire la différence entre plusieurs rangées. Nous n'avons pas annoté les tables pour l'instant. Cependant, nous pourrions étendre le dataset et annoter les tables en utilisant le concept de Sets d'étiquettes.

FUNSD to FUNSD+ comparaison côte à côte

Utilisation des en-têtes

FUNSD lie les en-têtes aux questions de manière incohérente. FUNSD+ essaie de réduire le nombre d'en-têtes et de n'utiliser que des en-têtes annotés qui se rapportent clairement au contenu qui les suit.

FUNSD to FUNSD+ comparaison côte à côte

Annotation de la réponse

FUNSD lie toutes les réponses multiples à une question, même en incluant le symbole du checkmark, ne fournissant ainsi pas d'informations claires sur la bonne réponse.

FUNSD to FUNSD+ comparaison côte à côte

Checkmarks

FUNSD annote le checkmark comme la réponse et la réponse textuelle comme une question (Independent Checkboxes). FUNSD+ annote le texte de la case à cocher sélectionnée.

FUNSD to FUNSD+ comparaison côte à côte

Exclure le texte avec des erreurs d'OCR

FUNSD inclut les signatures illisibles, FUNSD+ n'annote pas le texte qui ne peut pas être reconnu correctement par l'OCR.

FUNSD to FUNSD+ comparaison côte à côte

Réduire le nombre d'annotations

Le FUNSD inclut certains cas limites / ambigus, où parfois de nombreux éléments sont interconnectés, avec une structure qui n'est pas compréhensible. FUNSD+ préfère ne pas annoter les cas ambigus.

FUNSD to FUNSD+ comparaison côte à côte

Accès à l'ensemble de données

Les données peuvent être téléchargées via notre SDK Python ou peut être hébergé de manière personnalisée comme une instance de la Konfuzio Serveur dans votre environnement. En outre, notre interface d'étiquetage vous permet de définir facilement des Annotations et structures relationnelles d'entités besides Key Value Pair Labeling comme dans FUNSD. Vous pouvez ainsi construire et gérer des ensembles de données individuels. Vous trouverez plus d'exemples pour invoices, remittance advice ou car registration documents sur notre site.

Comment citer ?

Zagami, D., & Helm, C. (2022, Octobre 18). LE FUNSD+ : Un ensemble de données FUNSD plus grand et révisé. Retrieved November 5, 2022, from http://konfuzio.com/en/funsd-plus/

@misc{zagami_helm_2022,
title = {FUNSD+ : A larger and revised FUNSD dataset},
author = {Zagami, Davide et Helm, Christopher},
year = 2022,
mois = {Oct},
journal = {FUNSD+ | A larger and revised FUNSD dataset},
publisher = {Helm & Nagel GmbH},
url = {http://konfuzio.com/funsd-plus/}
}

Références

Harley, A. W., Ufkes, A., & Derpanis, K. G. (2015, août). Évaluation des réseaux convolutionnels profonds pour la classification et la récupération d'images de documents. In 2015 13th International Conference on Document Analysis and Recognition (ICDAR) (pp. 991-995). IEEE. Lien vers le PDF.

Jaume, G., Ekenel, H. K., & Thiran, J.-P. (2019). FUNSD : Un ensemble de données pour la compréhension des formes dans les documents numérisés bruyants. CoRRabs/1905.13538.

Vu, Hieu & Nguyen, Diep. (2020). Revising FUNSD dataset for key-value detection in document images.

    🐍✨À la recherche d'un nouveau défi ?

    Rejoins le AI Comedy Club ! Plonge dans un monde où l'IA et l'humour se rencontrent et utilise cette scène pour mettre en avant tes compétences. Que tu sois un jeune en devenir ou un développeur expérimenté, tu as la possibilité de montrer tes compétences en Python d'une manière amusante et innovante. Découvre également les possibilités de contribuer et même de postuler pour un emploi chez nous.

    Prêt à coder, à rire et à impressionner ?

    Consultez nos Challenge du club de comédie AI et découvre où ton humour et tes compétences en python peuvent te mener !

    Appliquer pour les scientifiques de données, développeur backend, ingénieur de données, développeur de logiciels, python développeur de logiciels emplois.

    À propos de moi

    Autres grands articles

    Transformation numérique Page de couverture

    Définition, mise en œuvre et exemples de transformation numérique

    Vous souhaitez que votre entreprise connaisse un succès durable à long terme, qu'elle établisse des relations étroites avec ses clients et qu'elle emploie des collaborateurs satisfaits ? Alors vous devez constamment...

    Lire l'article
    Titre du modèle de données

    Modèle de données : possibilités d'application dans l'entreprise

    Un modèle de données ou data modeling permet de modéliser graphiquement les relations entre différents types d'informations dans l'entreprise. Les modèles de données aident...

    Lire l'article
    régression logistique

    Régression logistique : une explication simple avec peu de maths

    Lorsqu'il s'agit de modèles complexes d'apprentissage automatique, on peut rapidement atteindre la limite de l'interprétabilité. Dans de tels cas, ...

    Lire l'article
    Arrow-up