FUNSD+ | 一个更大的、经过修订的FUNSD数据集

Maximilian Schneider

在创建FUNSD+数据集时,我们旨在扩大FUNSD。此外,我们想设置标签工具,以便FUNSD+数据集可以被复制,即以某种方式 "分叉",以便其他研究人员可以检查、编辑或扩展FUNSD+。 注释 视觉上或通过代码,见 实时文件实例.

如何获得FUNSD+数据集?

  1. 在app.konfuzio.com注册

  2. 创建一个支持票据

    请求访问FUNSD+:提供与你的app.konfuzio.com账户相连的正确的电子邮件。

  3. 你将会收到电子邮件的邀请。

    我们将向您发送一封邀请邮件,通过Konfuzio平台访问数据集。你需要注册一个账户。

  4. 使用 Konfuzio Python SDK 来下载数据。

    你可以在只读模式下从平台上探索数据集,然后通过以下方式下载它 Konfuzio SDK.只需通过以下方式安装它 pip安装confuzio_sdk 并在你想下载数据的文件夹中初始化它,用 confucio_sdk启动.然后下载数据集,用 confucio_sdk export_project 11984.

  5. 错误

    如果你不能使用SDK,我们将为你准备另一个下载,但我们还没有准备好,因为我们默认提供SDK的下载。


背景 FUNSD数据集

我们高度重视 FUNSD数据集 Jaume等人(2019)的研究结果表明,在嘈杂的扫描文件中,对形式的理解。 Guillaume Jaume 发布的数据集在 他的主页.它被授权用于非商业、研究和教育目的,见 许可证.FUNSD数据集是作为RVL-CDIP出版的文件的一个子集。RVL-CPID是由Harley等人(2015)提出的。

过去五年中提到该数据集的公开发表的论文的大致数量。

数字的基础是 带有代码的论文

为了建立FUNSD数据集,我们手动检查了表格类别中的25,000张图片。我们舍弃了无法阅读的和类似的表格,产生了3200份符合条件的文件,我们从其中随机抽出199份来进行注释.

Jaume等人(2019年)

即使是FUNSD数据集也与人工智能的一个细分领域有关,即 文件AI每个月大约有200人搜索 "FUNSD"。

FUNSD的搜索量。人们每月在谷歌上搜索 "FUNSD "多少次。

人们每月搜索多少次"FUNSD" 在谷歌上。

FUNSD与FUNSD+

在对单页文件进行注释时,我们纳入了最新的研究。 Vu等人 (2020) 报道称,发现了一些标签的不一致性,这可能会阻碍FUNSD对键值提取问题的适用性。

FUNSD+提供对更多文件的访问

除了从199个文件增加到1113个文件之外,我们还总结了这两个数据集的特点如下。FUNSD数据集的统计数据取自Jaume等人(2019)的论文。

基金会SDFUNSD+
文件1991113
页眉5631604
问题434314695
答案362312154
没有答案的问题720 (16.6%)2691 (18.3%)
没有问题的答案*。0114 (0.9%)
表1:FUNSD与FUNSD+的统计数据

*(基本上是上表中的独立复选框)。

FUNSD+提供对更多文件的访问

如表1所述,每份文件的标题、问题和答案的平均数量不同。在表2中,我们总结了对文件进行注释时的主要差异。之后,我们将使用注释用户界面的截图来演示选定的一些文件。

基金会SDFUNSD+
手写的答案是的,通常质量很好如果有良好的OCR,则是的,否则就排除文件
签名即使在不可读的情况下也包括在内在OCR良好的情况下是的,否则留空(我们宣布它因遗漏而无法阅读)。
复选框包括所有的答案,加上复选标记的符号只有与问题相关的正确答案。这提供了一个干净的问题-答案对,而不需要进一步的后处理。
独立复选框将复选标记作为答案,将文字回答作为问题标记。未打勾的答案是没有答案的问题。只有打了勾的答案被标注为答案,其余的被标注为 "其他",因为它没有回答任何问题。
桌子将一个表格的所有行链接到同一列,因此不可能区分多行。未加注释,标明为 "其他"。在下一个版本中,适当的AnnotationSet结构将有 "表列/行头 "的标签,与具有 "表单元格答案 "标签的单个单元格相关。
标题全程没有括号,被认为是对标题的评论
尾部的冒号没有
答案/问题中包含不相关的文字/评论是的,有完整的注释没有,只有来自问答对的干净信息
边缘案例/模棱两可的案例有时许多项目相互关联,其结构无法被理解从数据集中排除的文件

实时文件实例

JSON

JSON格式化的例子:访问 https://git.konfuzio.com/-/snippets/33

文件用户界面

访问 https://app.konfuzio.com/d/303962/

FUNSD与FUNSD+的直观例子

多行

FUNSD将一个表的所有行链接到同一列,所以不可能区分多行。我们暂时没有对表格进行注释。然而,我们可以扩大数据集,并使用以下概念对表格进行注释 标签组.

FUNSD与FUNSD+的并列比较

使用标头

FUNSD将标题与问题的链接不一致。FUNSD+试图减少标题的数量,只注释那些与旁边的内容有明显关系的标题。

FUNSD与FUNSD+的并列比较

为答案加注

FUNSD将所有的多个答案链接到一个问题上,甚至包括复选标记符号,因此没有提供关于正确答案的干净信息。

FUNSD与FUNSD+的并列比较

勾号

FUNSD将复选标记注释为答案,将文字回答注释为问题(独立复选框)。FUNSD+对选中的复选框的文本进行注释。

FUNSD与FUNSD+的并列比较

排除有OCR错误的文本

FUNSD包括不可读的签名,FUNSD+不注释不能被OCR正确识别的文本。

FUNSD与FUNSD+的并列比较

减少注释的数量

FUNSD包括一些边缘情况/模棱两可的情况,有时许多项目是相互联系的,其结构无法被理解。FUNSD+倾向于不对模棱两可的情况进行注释。

FUNSD与FUNSD+的并列比较

获取数据集

这些数据可以通过我们的 Python SDK 或者可以自定义托管为一个 Konfuzio服务器 在你的环境中。此外,我们的标签界面允许你轻松定义自定义的 注释实体关系结构 除了如FUNSD中的键值对标签。因此,你可以建立和维护个人数据集。你可以找到更多的例子,用于 发票, 汇款建议汽车登记 在我们的主页上的文件。

如何引证?

Zagami, D., & Helm, C. (2022, October 18).FUNSD+:一个更大的、经过修订的 FUNSD 数据集。2022 年 11 月 5 日,从 http://konfuzio.com/en/funsd-plus/ 获取。

@misc{zagami_helm_2022,
title = {FUNSD+:一个更大的和修订的FUNSD数据集}。
作者={Zagami, Davide and Helm, Christopher},
年=2022年。
月={10月}。
journal = {FUNSD+ | 一个更大的和修订的FUNSD数据集},
出版商={Helm & Nagel GmbH}。
url = {http://konfuzio.com/funsd-plus/}
}

参考文献

Harley, A. W., Ufkes, A., & Derpanis, K. G. (2015, August).用于文档图像分类和检索的深度卷积网的评估。In 2015 13th International Conference on Document Analysis and Recognition (ICDAR) (pp. 991-995).IEEE。 链接到PDF.

Jaume, G., Ekenel, H. K., & Thiran, J.-P. (2019).FUNSD:一个用于噪声扫描文件中的形式理解的数据集。 协同工作abs/1905.13538.

Vu, Hieu & Nguyen, Diep.(2020).修订FUNSD数据集,用于文档图像中的键值检测。

    🐍✨寻找新的挑战?

    加入人工智能喜剧俱乐部!让自己沉浸在人工智能与幽默的世界中,并在这个舞台上展示自己的技能。无论您是有抱负的年轻人还是经验丰富的开发人员,这里都是您以有趣和创新的方式展示 Python 技能的机会。此外,您还可以发现为我们做出贡献甚至申请工作的机会。

    准备好编码、欢笑和留下深刻印象了吗?

    看看我们的 人工智能喜剧俱乐部挑战赛 看看你的幽默感和 Python 技能能为你带来什么!

    申请数据科学家、后端开发人员、数据工程师、软件开发人员、Python 软件开发人员职位。

    关于我

    更多精彩文章

    数字化转型封面

    数字化转型的定义、实施和实例

    您希望自己的公司取得长期成功、与客户建立密切关系并拥有满意的员工吗?那么,您需要不断...

    阅读故事
    数据管理标题

    数据管理:企业如何有效利用数据

    为了从数据中获得有价值的见解和信息,并做出明智的决策,企业必须制定有效的数据管理流程。

    阅读故事
    海关文件自动化

    通过海关文件自动化优化清关流程

    报关行和清关公司是跨越国界运输货物并确保货物安全的专家。

    阅读故事
    箭头向上