文件中的注释 NLP工具

文档中的注释 NLP工具|2023年更新

Florian Zyprian

免责声明。 Konfuzio.com 提供了一个包括SLA在内的商业替代方案,以替代这里介绍的开源工具。

哪种注释工具最适合你的下一个自然语言处理项目,以实现文档中的注释?

用于NLP和计算机视觉的PDF文件的注释

许多注释工具是免费提供的。A 目前 文章 提出了几十个。我们用企业背景下对NLP注释工具的要求来补充这篇科学文章。在第二节中,我们将对一些可用的工具进行实际考察。

不同数据格式的注释

A 黑客新闻文章 描述了PDF处理的高度复杂性。以下700条评论反映了人们对PDF文件作为NLP培训数据库的兴趣。那些想知道更多关于 "PDF文本提取有什么难的?"的人,可以找到 这里 一个很好的概述。可以总结的是,企业用户很难获取PDF或图像中的文本来训练NLP模型。

通过注释的关系提供背景

只有对依赖关系的理解才能通过NLP在商业世界中带来附加值。从专业的角度来看,仅仅认出一个人的名字或姓氏往往是不够的。这个人的背景必须被注释,随后从NLP中学习。例如,对于专业的理解,是指卖方还是买方的名字是很重要的。

在团队中对文件进行注释 

在公司里,不同的人对高质量的数据集做出了贡献。在数据收集期间,不同的部门或人员通常已经提供了数据。另外,在NLP项目中进行注释时,不同的用户支持NLP专家创建NLP数据。有经验的用户必须检查经验不足的用户的注释。有经验的注释者应该能够修改经验不足的用户的注释。这个过程可以提高数据质量,加速组织学习。

文件中的自动注释

一旦专家训练了一个NLP模型,注释者应该使用它来节省时间。注释者应该使用该模型来自动生成新的注释。他们不应该创建新的注释,而应该审查这些注释。自动注释帮助注释者保持专注,并注释更多的原始数据。建议的注释缩短了处理原始数据的时间,因为人类纠正错误的注释比增加缺失的注释更快。即使是不太准确的模型,数据科学家也会帮助手动创建好的数据集。

使用视觉特征来改善NLP

与推文不同,文本在商业文件中的位置包含信息。例如,联系电话通常列在右上角。注释工具应该能够将任何文本序列转换为一个边界框和页码。视觉位置补充了NLP的特征,增加了模型的准确性。

2023年的免费NLP注释工具

以下工具是免费的,基于浏览器,可以安装。这些免费的注释工具已经向许多数据科学家证明了它们的价值。在Konfuzio,我们非常尊重创造这些工具的开发者。然而,我们仍然会根据企业用户的需求来挑战这些工具。我们在安装和配置后对所有工具进行了测试。

烘烤

该工具brat是基于浏览器的,允许对文本文件进行注释。它突出了注释之间的关系。该设置允许在文本内标记具有高度复杂性的注释。当上传文本文件时,文本失去了其格式,至少在界面上是这样。此外,在超过一行的范围内对文本进行注释往往会导致错误。该工具brat在MIT许可下可以单独使用 主页 可供下载。

多卡诺

Doccano是一个基于浏览器的注释工具,用于对序列进行分类、翻译和注释。通过Docker的设置可以使一个简单的 部署.Doccano是在 GitHub 可在MIT许可下使用。目前,只有文本文件的注释是可能的。不可能对单个注释进行分组。可以通过API自动添加注释。遗憾的是,用户无法过滤自动注释与修订注释。这使得手动控制自动创建的注释几乎不可能。

适应性

作为继任者的 网络Anno INCEpTION提供了一个复杂的解决方案。这个源自科学研究的工具,提供了一个 文件 和一个 现场演示.为了托管机密数据,可以将应用程序设置在自己的服务器上。INCEpTION使用开源的Apache许可证v2.0。 PDF.js 是可能的。不幸的是,在用PDF查看器进行这种文本转换时,文本中的布局会丢失。根据文档,注解不能自动创建。

PDFAnno

由于重点是使用户能够对PDF进行注释,这个工具提供了一个网络界面。在一个文件中,每次只有一个用户可以创建注释。只有通过导入或导出数据,才能与他人合作。该工具依靠PDF.js来渲染PDF。由于PDF.js在开始编辑前加载整个PDF,对较大的PDF进行注释会导致加载时间过长。ǞǞǞ GitHub项目 (MIT许可证)被存档了。

你可以找到所有用于注释的工具 这里.

Konfuzio的文件中的NLP注释

免费的注释工具很好,而且大多集中在个人终端用户上,例如,一个数据科学家独自在NLP项目上工作。在企业背景下,这些工具的功能只是以一种非常异质的方式映射需求。这促使我们在2018年开发了Konfuzio。我们的目标是使公司能够在任何数据源上快速创建NLP模型,并进行协作。我们很高兴接受其他工具的评论。我们在文件中的注释工具结合了视觉层和文本。

Konfuzio模块。

  1. Konfuzio服务器Konfuzio服务器提供了一个处理文件的网络服务。文件处理的结果通过多客户REST API服务以JSON格式提供。该应用程序按角色区分用户,并提供配置创建、读取、更新和删除(CRUD)权限的可能性。闭源代码,见 文件.
  2. Konfuzio Python SDKKonfuzio软件开发工具包(Konfuzio SDK)是一个用于开发软件的编程工具和库的集合。它支持软件开发人员在此基础上创建应用程序,从而为用户定义文档流程进行分类。 萃取 和文件的分割。 链接到GitHub Git存储库.
  3. Konfuzio文件验证用户界面: 文档验证用户界面是一个直观的用户界面,帮助Konfuzio服务器的用户浏览验证从特定文档中提取的信息所涉及的各种步骤。 链接到GitHub Git存储库.
  4. Konfuzio舵手图:Konfuzio舵手图提供了运行Konfuzio服务器的配置,以便在Kubernetes上安装、运行、更新和扩展。 链接到Git存储库.
职能烘烤多卡诺适应性ǞǞǞKonfuzio
数据格式
背景介绍
团队第一
自动化如果有必要的话。
视觉特征
免费的
文件、图像和文本中的注释可以用这些工具创建。

    🐍✨寻找新的挑战?

    加入人工智能喜剧俱乐部!让自己沉浸在人工智能与幽默的世界中,并在这个舞台上展示自己的技能。无论您是有抱负的年轻人还是经验丰富的开发人员,这里都是您以有趣和创新的方式展示 Python 技能的机会。此外,您还可以发现为我们做出贡献甚至申请工作的机会。

    准备好编码、欢笑和留下深刻印象了吗?

    看看我们的 人工智能喜剧俱乐部挑战赛 看看你的幽默感和 Python 技能能为你带来什么!

    申请数据科学家、后端开发人员、数据工程师、软件开发人员、Python 软件开发人员职位。

    关于我

    更多精彩文章

    OCR服务

    用于自动化文件管理的OCR服务

    您的文档管理是否还在为笨重且容易出错的流程所累?您是否愿意将资源用于手动扫描和打字?

    阅读故事
    集装箱扫描

    人工智能应用的容器安全扫描--需求与实施

    在人工智能(AI)领域,容器不仅仅是一种便利,更是一种必需品。人工智能算法有无数的依赖关系...

    阅读故事
    网络攻击 macOS

    MacOS 上的网络攻击 - 是否需要额外的杀毒软件?

    网络攻击具有巨大的潜在破坏力。它们会危及公司的生存,如果攻击医院和医疗中心等重要基础设施,还会危及人类的生命。

    阅读故事
    箭头向上