文件理解:理解文件的技术

文档理解是一个包含一系列技术和工艺的领域,旨在从非结构化文档中提取信息并将其转化为结构化数据。虽然计算机视觉和自然语言处理(NLP)是文档理解的重要组成部分,但它是一个独特的领域,需要两者的结合。

计算机视觉 侧重于文件的视觉方面,如图像和布局,并使用算法从这些元素中提取信息。 NLP 另一方面,处理文件的语言方面,并使用诸如文本识别和情感分析等技术来处理文本内容。

虽然计算机视觉和NLP在各自的领域都能发挥功效,但仅靠它们并不能提供对一份文件的完整理解。例如,一份文件可能包含传达重要信息的图像,而文本内容可能有限或不相关。在这种情况下,计算机视觉和NLP的结合对于获得对文件的全面理解至关重要。

文件理解的定义

文件理解 - 定义

文档理解是从非结构化或半结构化文档中提取有意义的信息并将其转换为结构化数据以供分析和使用的学习过程。这一过程由使用机器学习、NLP 和计算机视觉甚至传统 OCR 的技术提供支持,以实现信息提取的自动化。

今天,各种供应商提供不同类型的人工智能。这些可以是,例如,计算机视觉NLP(自然语言理解)或简单形式的机器学习。 

这就提出了一个问题:为什么涉及某种文件理解的文档人工智能比简单的计算机视觉或NLPers更难实现,因为后者只考虑信息的视觉或语义部分?

简单的答案是,理解文件的人工智能,即能够理解文件的人工智能,必须在两个维度上工作。通常被称为混合型人工智能,这种人工智能结合了语义和视觉信息,可以像人类一样理解、打字甚至处理文件的内容。

绿色背景下的3个不同的纸质符号

以发票为例,会发生什么情况

以一张来自供应商的发票为例,它包含了所购买的产品或服务的信息,所欠的总金额和付款的到期日期。在这种情况下,计算机视觉和NLP人工智能都在理解文件方面发挥着重要作用。

计算机视觉AI可用于识别和提取信息,如发票号码、日期、供应商名称和地址。它还可以用来处理发票的视觉布局,例如识别表格和栏目并提取相关数据。

仅靠计算机视觉还不足以完全理解发票。例如,它不能提取购买的具体产品或服务,或与每个项目相关的价格信息。这就是NLP人工智能发挥作用的地方。

NLP人工智能可用于识别和提取信息,如购买的产品或服务的名称、数量和价格。它还可以用来处理每个项目的描述和规格,并提取相关信息,如计量单位、税率和任何折扣。

总之,计算需要计算机视觉和NLP人工智能的结合,以提供对文件的全面理解。虽然计算机视觉人工智能对于识别和提取视觉布局的信息至关重要,但NLP人工智能对于处理和提取文本内容中的详细信息是必要的。没有这两个组成部分,发票中包含的信息就不能被完全理解和使用。

哪些文件可以阅读?

重要的是要知道,对于人工智能来说,阅读结构化的文件比阅读非结构化的文件更容易。在身份证上,你可以立即识别出你要找的信息,而对于一般的条款和条件,你首先要搜索它。

在最好的情况下,文档人工智能是可训练的,并不断学习在哪里可以找到文档类型的哪些信息。

有不同的方法来阅读结构化、半结构化和非结构化的文件。

  • 标准化的文件 例如,身份证或车辆登记文件。人们可能认为,一个简单的基于规则的方法就足够了。然而,要正确识别这些信息并不那么容易。人们可能会认为,它们总是在同一个地方。但事实并非如此,特别是如果文件以前是折叠的或用智能手机自由拍摄的,并且被扭曲或旋转。
  • 半结构化的文件 包含相同的信息,但它总是在文件的不同地方找到。人工智能模型学习技能,根据关键词找到他们要找的信息,例如 "电话号码",它可以在任何页面的任何地方找到。
  • 非结构化文件 包含在任何位置的搜索信息,并且没有关键词。这就是人工智能的学习能力发挥作用的地方。如果你教人工智能哪些术语和信息是相关的,它已经可以用下一个文件独立地过滤掉它们。

除了简单的数字和文字,Document AI还可以通过适当的训练捕捉复选框和表格。

文件理解是如何工作的?

在RPA的帮助下,一个文件理解机器人被创建。工作流程是在相应的软件中设置的,例如,可以是这样的。

  1. 创建分类法。分类法指的是一种分类模式。在分类法管理器中,你必须首先定义一个文档类型,并对要读取的字段进行分类(例如,发票号码、发票总额和日期)。Konfuzio的特别之处在于,分类法是可以自由配置的,因此可以灵活地适应所有类型的文件和语言。
  2. 数字化文件。借助于一个 OCR软件 你可以将先前定义的文件数字化,并将其转化为机器人可以阅读的文本形式。
  3. 分类。使用关键字,机器人将数字化的文件分配到分类管理器中定义的文件类别。
  4. 提取。一旦人工智能确定了它是什么类型的文件,数据就会从各个字段中读取。基于规则或模型的方法被用于此。
  5. 验证。如果需要,提取的结果可以显示给验证站的员工。在那里,他们可以检查读取的数值,并在必要时予以纠正。这种由人类提供的反馈,通常也被称为人在回路中,为人工智能提供了学习的机会。 
  6. 出口。最后,数据被导出到各个系统。例如,这些可以是SAP系统,但也可以是Excel表格。
用例Konfuzio文件理解

用Konfuzio在实践中理解文件

能够在实践中使用Document Understanding是一个游戏规则的改变者。为什么以及如何使用Document Understanding,将在下面的用例中解释。

例子:单独的人工智能来处理信息的图像和文本 

为了用一个例子解释整个事情,让我们从一个简单的问题开始。

为什么人工智能能比工资单更好地识别冰球运动员?

冰上曲棍球报纸文章

正如你在图片中看到的,一张照片显示在一篇新闻文章的上方,这篇新闻文章显示了关于一张图片的信息,并分别显示了一个冰球运动员的照片。

让我们使用文章中这一信息的第一个维度,处理一下 文本 有一个NLP组件。这个NLP组件并不是专门为这个用例设计的,但已经可以读出所谓的实体,例如人、地方、组织甚至公司。

此外,你可以使用 视觉组件 的贡献,并发现,例如,可以找到单一信息的不同分割。例如,这可以是天花板、墙壁,甚至是单独的人,而不能考虑到背景--即这是一个在体育场的冰球运动员。

这两种人工智能--计算机视觉和命名实体模型--都有其合理性。然而,将这些结合起来处理文件是不容易的。 

出于这个原因,Konfuzio软件的创建是为了使语义和视觉部分都能在业务范围内,即在文件中处理信息。

通过混合人工智能对工资表进行文件理解

工资证明 KI 文件 理解
人工智能读出工资表样本中的字段

如果你把工资表和报纸上的纯文章进行比较,你马上就会发现,工资表仍然可以在语义上正确表达二维背景下的几层信息。

例子。 

薪资报表中薪酬总额的表格结构提供了关于薪酬总额是否对应于一次性付款或这些薪酬总额是否代表雇员的定期薪酬的信息。 在计算潜在借款人的收入情况时,正是这些信息相当重要。

这就是为什么基于规则的信息提取是不够的

为了读取这些信息,只提供OCR、NLP或IDP解决方案的供应商总是有一个缺点,那就是他们的工作是基于规则的,因此会显示不正确的信息,例如,在扫描方向不正确或文件被歪斜地扫描进来的情况。 

大多数情况下,数据不是以一种适当的形式存在,而且数据没有顺序。它们是以非结构化的形式存在的。 

没有具体的技术或程序来从非结构化的PDF文件中提取数据,因为数据是随机存储的,这取决于你想从PDF文件中提取什么样的数据。

基于规则的工具的工作是对文件中的目标数据点进行定位。基于这一背景,然后在文件中搜索最终的重要数值。

缺点是。 只要格式稍有变化,这种方法就不再有效。如果你是一家与10个不同国家的60个不同的服务供应商合作的公司,你可以假设你的基于规则的工具将很快达到其极限。

当然,人们可以考虑通过全面的训练数据,机器学习模型、计算机视觉模型或NLP模型也可以被训练来应对文件的这些特殊特征。 

然而,这里的困难在于,技术背景下的训练文件的数量通常非常有限,因此不可能提供成千上万的训练文件来训练这样的文件AI。

正如你所看到的,纯粹的基于规则和布局的文档信息提取提供了第一种方法,而且市场上不同的供应商也有其合理性。纯粹基于人工智能的信息提取往往受到训练文件数量的限制,如果提供的文件数量太少,即使是基于人工智能的提取也只能达到很低的准确度。

Konfuzio 3 符号文件理解

注意你的邻居:Konfuzio的文件理解

Konfuzio方法以不同的方式工作:信息既从文件的语义中获得(如措辞、语言、形式或锚定词),这些信息又与文本在页面上的定位相联系,如该词在表格中或正文中。 

因此,标题是 "注意你的邻居" - 基于周围的信息,即 "邻居",人工智能可以可靠地识别和分配基于一维和二维信息的内容。

你可以阅读更多关于一维思维的模型和基于连续文本的模型与文本的二维信息的结合是如何工作的术语 分割

这使你有可能不仅考虑一个文本信息的语义背景,就像NER模型所提取的那样,而且还包括由于文本的方向和位置而存在于文档中的信息。

例如,门牌号或街道可以写在统计学上经常出现的雇员姓名下。

该人工智能将最新的NER研究与计算机视觉研究结合在一起,创造了一个全面的文档理解,因为在人工智能内部,典型的光学组件可以被实现和学习,而不需要基于布局的固定提取。同时,该人工智能考虑到了通过信息的一维表示法而变得可以获得的语义背景。这种人工智能也被称为 文件AI 称为。

更多信息 来自Konfuzio的文件理解 可以在网站上找到。

文件理解的优势是什么?

特别是在处理大量文件的地方,文件理解带来了巨大的附加值。 

在公司中使用Document Understanding的优势如下。

  • 自动处理大量的文件
  • 减少了错误率
  • 节省时间和成本
  • 消除了员工的重复性工作
  • 提高员工的生产力
  • 提高员工满意度

结论:必须合理地使用 "文件理解"。

如果你想利用掌握文档理解的人工智能的优势,你必须找到合适的软件。不是每一个OCR或IDP软件都适合做这个。

如果你经常需要处理高要求的文件,如工资单或复杂的电子表格,那么使文件理解智能化的合适软件就是使你的业务更有效率的投资。

如果你在开始时需要花一些时间训练人工智能,一旦它准备好了,你就可以从它的工作中受益,让人工智能快速、轻松、正确地阅读你的复杂文件。 

这意味着你已经巧妙地将一个耗时的、容易出错的过程自动化,并可以将获得的时间用于其他任务。

你可以在这里找到更多关于这个主题的信息。

你已经在你的公司里使用了 "文档理解 "吗?欢迎在评论中给我写下你对这个话题的看法或进一步的问题!

"
"
Jan Siebert 的头像

最新文章