在创建FUNSD+数据集时,我们旨在扩大FUNSD。此外,我们想设置标签工具,以便FUNSD+数据集可以被复制,即以某种方式 "分叉",以便其他研究人员可以检查、编辑或扩展FUNSD+。 注释 视觉上或通过代码,见 实时文件实例.
如何获得FUNSD+数据集?
- 在app.konfuzio.com注册
- 创建一个支持票据
请求访问FUNSD+:提供与你的app.konfuzio.com账户相连的正确的电子邮件。
- 你将会收到电子邮件的邀请。
我们将向您发送一封邀请邮件,通过Konfuzio平台访问数据集。你需要注册一个账户。
- 使用 Konfuzio Python SDK 来下载数据。
你可以在只读模式下从平台上探索数据集,然后通过以下方式下载它 Konfuzio SDK.只需通过以下方式安装它
pip安装confuzio_sdk
并在你想下载数据的文件夹中初始化它,用confucio_sdk启动
.然后下载数据集,用confucio_sdk export_project 11984
. - 错误
如果你不能使用SDK,我们将为你准备另一个下载,但我们还没有准备好,因为我们默认提供SDK的下载。
本文章以德语撰写,可自动翻译成其他语言并进行重读。我们欢迎您在文章末尾进行反馈。
背景 FUNSD数据集
我们高度重视 FUNSD数据集 Jaume等人(2019)的研究结果表明,在嘈杂的扫描文件中,对形式的理解。 Guillaume Jaume 发布的数据集在 他的主页.它被授权用于非商业、研究和教育目的,见 许可证.FUNSD数据集是作为RVL-CDIP出版的文件的一个子集。RVL-CPID是由Harley等人(2015)提出的。
过去五年中提到该数据集的公开发表的论文的大致数量。

数字的基础是 带有代码的论文
为了建立FUNSD数据集,我们手动检查了表格类别中的25,000张图片。我们舍弃了无法阅读的和类似的表格,产生了3200份符合条件的文件,我们从其中随机抽出199份来进行注释.
Jaume等人(2019年)
即使是FUNSD数据集也与人工智能的一个细分领域有关,即 文件AI每个月大约有200人搜索 "FUNSD"。

人们每月搜索多少次"FUNSD" 在谷歌上。
FUNSD与FUNSD+
在对单页文件进行注释时,我们纳入了最新的研究。 Vu等人 (2020) 报道称,发现了一些标签的不一致性,这可能会阻碍FUNSD对键值提取问题的适用性。
FUNSD+提供对更多文件的访问
除了从199个文件增加到1113个文件之外,我们还总结了这两个数据集的特点如下。FUNSD数据集的统计数据取自Jaume等人(2019)的论文。
基金会SD | FUNSD+ | |
---|---|---|
文件 | 199 | 1113 |
页眉 | 563 | 1604 |
问题 | 4343 | 14695 |
答案 | 3623 | 12154 |
没有答案的问题 | 720 (16.6%) | 2691 (18.3%) |
没有问题的答案*。 | 0 | 114 (0.9%) |
*(基本上是上表中的独立复选框)。
FUNSD+提供对更多文件的访问
如表1所述,每份文件的标题、问题和答案的平均数量不同。在表2中,我们总结了对文件进行注释时的主要差异。之后,我们将使用注释用户界面的截图来演示选定的一些文件。
基金会SD | FUNSD+ | |
---|---|---|
手写的答案 | 是的,通常质量很好 | 如果有良好的OCR,则是的,否则就排除文件 |
签名 | 即使在不可读的情况下也包括在内 | 在OCR良好的情况下是的,否则留空(我们宣布它因遗漏而无法阅读)。 |
复选框 | 包括所有的答案,加上复选标记的符号 | 只有与问题相关的正确答案。这提供了一个干净的问题-答案对,而不需要进一步的后处理。 |
独立复选框 | 将复选标记作为答案,将文字回答作为问题标记。未打勾的答案是没有答案的问题。 | 只有打了勾的答案被标注为答案,其余的被标注为 "其他",因为它没有回答任何问题。 |
桌子 | 将一个表格的所有行链接到同一列,因此不可能区分多行。 | 未加注释,标明为 "其他"。在下一个版本中,适当的AnnotationSet结构将有 "表列/行头 "的标签,与具有 "表单元格答案 "标签的单个单元格相关。 |
标题 | 全程 | 没有括号,被认为是对标题的评论 |
尾部的冒号 | 是 | 没有 |
答案/问题中包含不相关的文字/评论 | 是的,有完整的注释 | 没有,只有来自问答对的干净信息 |
边缘案例/模棱两可的案例 | 有时许多项目相互关联,其结构无法被理解 | 从数据集中排除的文件 |
实时文件实例
JSON

文件用户界面

FUNSD与FUNSD+的直观例子
多行
FUNSD将一个表的所有行链接到同一列,所以不可能区分多行。我们暂时没有对表格进行注释。然而,我们可以扩大数据集,并使用以下概念对表格进行注释 标签组.

使用标头
FUNSD将标题与问题的链接不一致。FUNSD+试图减少标题的数量,只注释那些与旁边的内容有明显关系的标题。

为答案加注
FUNSD将所有的多个答案链接到一个问题上,甚至包括复选标记符号,因此没有提供关于正确答案的干净信息。

勾号
FUNSD将复选标记注释为答案,将文字回答注释为问题(独立复选框)。FUNSD+对选中的复选框的文本进行注释。

排除有OCR错误的文本
FUNSD包括不可读的签名,FUNSD+不注释不能被OCR正确识别的文本。

减少注释的数量
FUNSD包括一些边缘情况/模棱两可的情况,有时许多项目是相互联系的,其结构无法被理解。FUNSD+倾向于不对模棱两可的情况进行注释。

获取数据集
这些数据可以通过我们的 Python SDK 或者可以自定义托管为一个 Konfuzio服务器 在你的环境中。此外,我们的标签界面允许你轻松定义自定义的 注释 和 实体关系结构 除了如FUNSD中的键值对标签。因此,你可以建立和维护个人数据集。你可以找到更多的例子,用于 发票, 汇款建议 或 汽车登记 在我们的主页上的文件。
如何引证?
Zagami, D., & Helm, C. (2022, October 18).FUNSD+:一个更大的、经过修订的 FUNSD 数据集。2022 年 11 月 5 日,从 http://konfuzio.com/en/funsd-plus/ 获取。
@misc{zagami_helm_2022,
title = {FUNSD+:一个更大的和修订的FUNSD数据集}。
作者={Zagami, Davide and Helm, Christopher},
年=2022年。
月={10月}。
journal = {FUNSD+ | 一个更大的和修订的FUNSD数据集},
出版商={Helm & Nagel GmbH}。
url = {http://konfuzio.com/funsd-plus/}
}
参考文献
Harley, A. W., Ufkes, A., & Derpanis, K. G. (2015, August).用于文档图像分类和检索的深度卷积网的评估。In 2015 13th International Conference on Document Analysis and Recognition (ICDAR) (pp. 991-995).IEEE。 链接到PDF.
Jaume, G., Ekenel, H. K., & Thiran, J.-P. (2019).FUNSD:一个用于噪声扫描文件中的形式理解的数据集。 协同工作, abs/1905.13538.
Vu, Hieu & Nguyen, Diep.(2020).修订FUNSD数据集,用于文档图像中的键值检测。