甜甜圈深潜--文件理解

Kim等人(2021年)在他们的论文《无OCR的文档理解转化器(Donut)》中介绍了Donut,它是一种不依赖光学字符识别(OCR)的独特文档图像处理方法。该模型被设计为能在不同的语言中有效地工作,并且在计算上比基于OCR的传统方法更便宜。

在这篇文章中,我们将更深入地了解Donut的架构,它的组件和它在实际应用中的性能。

文件 了解变压器
Kim, G., Hong, T., Yim, M., Nam, J., Park, J., ... & Park, S. (2022, October).无OCR的文档理解转化器。在 计算机视觉-ECCV 2022:第17届欧洲会议,以色列特拉维夫,2022年10月23-27日,论文集,第XXVIII部分 (pp. 498-517).Cham: Springer Nature Switzerland.(第2页)

在DONUT论文中,研究人员提出了一种训练组合视觉和语音模型(自带E2E模型)的方法,这是一种可以训练类似人类的人工智能。 视觉噪音文件 理解并生成结构化数据。他们使用一种叫做教师强迫的训练策略,这意味着他们在人工智能学习的过程中给它正确的答案,而不是让它根据以前的尝试来猜。

当人工智能真正接受测试时,它会收到一个提示,这是一段简短的文字,帮助人工智能决定生成什么。研究人员为不同的任务添加了特殊的标记(类似于标记),使人工智能更容易理解它需要做什么。

为了说明这个过程,想象一下你正在教孩子写一个故事。教师强迫就像给他们一个大纲或一个要包括在故事中的关键点的清单,而提示则是一个能让他们的创作热情高涨的句子或想法。

在人工智能产生响应后,研究人员将输出转换为一种结构化格式,称为 JSON这是一种表示和组织数据的常用方法。他们使用特殊的标记(类似于标记)来表示输出中每条信息的开始和结束。如果人工智能的输出结构不正确,他们就认为那条特定的信息已经丢失。

从嘈杂的扫描文件中获得结构化的输出
Kim, G., Hong, T., Yim, M., Nam, J., Park, J., ... & Park, S. (2022, October).无OCR的文档理解转化器。在 计算机视觉-ECCV 2022:第17届欧洲会议,以色列特拉维夫,2022年10月23-27日,论文集,第XXVIII部分 (pp. 498-517).Cham: Springer Nature Switzerland.(第2页)

总的来说,DONUT论文描述了一种训练和测试语言模型的方法,其中有教师的强迫、提示和结构化的输出格式,使人工智能更容易理解类似人类的语言。 视觉噪音文件 以了解和产生。

Konfuzio 团队一直在研究 Kim 等人于 2021 年提出的 "甜甜圈 "文档理解模型,因为这是一种很有前途的自动文档处理方法。该模型采用了一种新颖的数据表示方法,可以更精确、更有效地捕捉文档中不同元素之间的关系。此外,该模型在对文档进行分类和提取信息方面显示出良好的效果,使其成为开发自动文档处理解决方案的一种有前途的方法。

架构和组件

甜甜圈架构的主要组成部分是编码器和解码器,前者负责处理视觉数据,后者负责处理文本数据。该模型主要分两个阶段工作:

编码嵌入:在这个阶段,编码器处理输入图像并将其转换为嵌入。嵌入物是代表视觉、文本或其他类型数据的数值。这个过程允许模型将文件的视觉信息转换成机器可读的格式。

解码解码器:解码器采用编码器生成的嵌入,并根据编码器的输出自动递归地生成文本。在自回归过程中,解码器使用以前生成的词作为背景来生成下一个词。通过这种方法,该模型可以生成输入图像的文本表示,而无需借助OCR。

性能和限制

为 "cord-v2 "任务提供甜甜圈🍩演示
Cord v2 donut模型文档理解json输出

尽管有创新的方法,Donut的表现在某些应用中并不特别令人信服。在用该模型的两个实例(默认实例和用CORD收据数据集微调的版本)进行的测试中,成功的衡量标准是提取地面真实注释的准确程度。不幸的是,所测试的类别的总体精度从未超过10 %。

这些测试中发现的一些局限性和缺点是:

独立于语言的能力不足:尽管Donut被设计成可以在不同的语言中工作,但在处理德语和英语数据时,其性能并不理想。在某些情况下,生成的文本甚至包含不相关的中文字符。

处理速度低:即使在GPU上运行,该模型的处理速度也相对较慢,这可能会影响其在现实世界中的实用性。

未来的方向和改进

鉴于这些限制,研究人员目前正在调查为特定数据集微调甜甜圈模型的可能性,以提高其性能。目标是开发一个更加独立于语言的高效版本的模型,它可以更好地理解和处理不同的文档图像。

微调包括调整模型的参数以更好地适应目标数据集,从而形成一个为手头任务量身定做的更专业的模型。通过对Donut进行微调以适应所需的数据,研究人员希望能够实现更好的提取精度和整体性能。

摘要

总之,Donut代表了一种新的文件图像处理方法,因为它不再依赖OCR。尽管目前在一些应用中的表现并不令人满意,但通过微调和进一步的研究,改进的潜力是有希望的。随着技术的发展和适应,Donut可以成为一个有价值的工具,用于独立于语言和计算效率的文档图像处理。

"
"
Elizaveta Ezhergina 的头像

最新文章