免责声明。 Konfuzio.com 提供了一个包括SLA在内的商业替代方案,以替代这里介绍的开源工具。
哪种注释工具最适合你的下一个自然语言处理项目,以实现文档中的注释?
本文章以德语撰写,可自动翻译成其他语言并进行重读。我们欢迎您在文章末尾进行反馈。
用于NLP和计算机视觉的PDF文件的注释
许多注释工具是免费提供的。A 目前 文章 提出了几十个。我们用企业背景下对NLP注释工具的要求来补充这篇科学文章。在第二节中,我们将对一些可用的工具进行实际考察。
不同数据格式的注释
A 黑客新闻文章 描述了PDF处理的高度复杂性。以下700条评论反映了人们对PDF文件作为NLP培训数据库的兴趣。那些想知道更多关于 "PDF文本提取有什么难的?"的人,可以找到 这里 一个很好的概述。可以总结的是,企业用户很难获取PDF或图像中的文本来训练NLP模型。
通过注释的关系提供背景
只有对依赖关系的理解才能通过NLP在商业世界中带来附加值。从专业的角度来看,仅仅认出一个人的名字或姓氏往往是不够的。这个人的背景必须被注释,随后从NLP中学习。例如,对于专业的理解,是指卖方还是买方的名字是很重要的。
在团队中对文件进行注释
在公司里,不同的人对高质量的数据集做出了贡献。在数据收集期间,不同的部门或人员通常已经提供了数据。另外,在NLP项目中进行注释时,不同的用户支持NLP专家创建NLP数据。有经验的用户必须检查经验不足的用户的注释。有经验的注释者应该能够修改经验不足的用户的注释。这个过程可以提高数据质量,加速组织学习。
文件中的自动注释
一旦专家训练了一个NLP模型,注释者应该使用它来节省时间。注释者应该使用该模型来自动生成新的注释。他们不应该创建新的注释,而应该审查这些注释。自动注释帮助注释者保持专注,并注释更多的原始数据。建议的注释缩短了处理原始数据的时间,因为人类纠正错误的注释比增加缺失的注释更快。即使是不太准确的模型,数据科学家也会帮助手动创建好的数据集。
使用视觉特征来改善NLP
与推文不同,文本在商业文件中的位置包含信息。例如,联系电话通常列在右上角。注释工具应该能够将任何文本序列转换为一个边界框和页码。视觉位置补充了NLP的特征,增加了模型的准确性。
2023年的免费NLP注释工具
以下工具是免费的,基于浏览器,可以安装。这些免费的注释工具已经向许多数据科学家证明了它们的价值。在Konfuzio,我们非常尊重创造这些工具的开发者。然而,我们仍然会根据企业用户的需求来挑战这些工具。我们在安装和配置后对所有工具进行了测试。
烘烤
该工具brat是基于浏览器的,允许对文本文件进行注释。它突出了注释之间的关系。该设置允许在文本内标记具有高度复杂性的注释。当上传文本文件时,文本失去了其格式,至少在界面上是这样。此外,在超过一行的范围内对文本进行注释往往会导致错误。该工具brat在MIT许可下可以单独使用 主页 可供下载。
多卡诺
Doccano是一个基于浏览器的注释工具,用于对序列进行分类、翻译和注释。通过Docker的设置可以使一个简单的 部署.Doccano是在 GitHub 可在MIT许可下使用。目前,只有文本文件的注释是可能的。不可能对单个注释进行分组。可以通过API自动添加注释。遗憾的是,用户无法过滤自动注释与修订注释。这使得手动控制自动创建的注释几乎不可能。
适应性
作为继任者的 网络Anno INCEpTION提供了一个复杂的解决方案。这个源自科学研究的工具,提供了一个 文件 和一个 现场演示.为了托管机密数据,可以将应用程序设置在自己的服务器上。INCEpTION使用开源的Apache许可证v2.0。 PDF.js 是可能的。不幸的是,在用PDF查看器进行这种文本转换时,文本中的布局会丢失。根据文档,注解不能自动创建。
PDFAnno
由于重点是使用户能够对PDF进行注释,这个工具提供了一个网络界面。在一个文件中,每次只有一个用户可以创建注释。只有通过导入或导出数据,才能与他人合作。该工具依靠PDF.js来渲染PDF。由于PDF.js在开始编辑前加载整个PDF,对较大的PDF进行注释会导致加载时间过长。ǞǞǞ GitHub项目 (MIT许可证)被存档了。
你可以找到所有用于注释的工具 这里.
Konfuzio的文件中的NLP注释





免费的注释工具很好,而且大多集中在个人终端用户上,例如,一个数据科学家独自在NLP项目上工作。在企业背景下,这些工具的功能只是以一种非常异质的方式映射需求。这促使我们在2018年开发了Konfuzio。我们的目标是使公司能够在任何数据源上快速创建NLP模型,并进行协作。我们很高兴接受其他工具的评论。我们在文件中的注释工具结合了视觉层和文本。
Konfuzio模块。
- Konfuzio服务器Konfuzio服务器提供了一个处理文件的网络服务。文件处理的结果通过多客户REST API服务以JSON格式提供。该应用程序按角色区分用户,并提供配置创建、读取、更新和删除(CRUD)权限的可能性。闭源代码,见 文件.
- Konfuzio Python SDKKonfuzio软件开发工具包(Konfuzio SDK)是一个用于开发软件的编程工具和库的集合。它支持软件开发人员在此基础上创建应用程序,从而为用户定义文档流程进行分类。 萃取 和文件的分割。 链接到GitHub Git存储库.
- Konfuzio文件验证用户界面: 文档验证用户界面是一个直观的用户界面,帮助Konfuzio服务器的用户浏览验证从特定文档中提取的信息所涉及的各种步骤。 链接到GitHub Git存储库.
- Konfuzio舵手图:Konfuzio舵手图提供了运行Konfuzio服务器的配置,以便在Kubernetes上安装、运行、更新和扩展。 链接到Git存储库.
职能 | 烘烤 | 多卡诺 | 适应性 | ǞǞǞ | Konfuzio |
数据格式 | ✗ | ✗ | ✓ | ✓ | ✓ |
背景介绍 | ✓ | ✗ | ✓ | ✗ | ✓ |
团队第一 | ✗ | ✓ | ✓ | ✗ | ✓ |
自动化 | ✗ | 如果有必要的话。 | ✗ | ✗ | ✓ |
视觉特征 | ✗ | ✗ | ✗ | ✗ | ✓ |
免费的 | ✓ | ✓ | ✓ | ✓ | ✗ |