流行语宾果:当技术术语失效时

Maximilian Schneider

今天我们来听听丹-卢卡里尼的观点,他作为IDP(智能文档处理)的主要分析师,认为我们领域的术语多样性造成的混乱多于帮助。然而,正如经常发生的那样,一个硬币有两面。

我怀疑这种营销文字沙拉是大量FOMO(害怕错过)感染C-suite的结果。

丹-卢卡里尼、 文件、内容、文件、记录、半结构化或非结构化数据:标签真的很重要了吗?

首先,必须强调的是,我们完全理解丹的担忧。他认为,我们用来描述我们处理的数据类型的术语--无论是 "文件"、"内容"、"文件"、"记录"、 "半结构化数据 "或 "非结构化数据"。 - 造成混乱,最终没有什么意义。这种观点是可以理解的。

然而,丹说,当这些术语以未经教育和膨胀的方式被使用时,问题就出现了。行业术语,如果被误用或过度使用,就会变成流行语,造成混乱并冲淡术语的原意。

我们部分同意这一点。然而,重要的是要记住,科学和技术中的技术术语的存在往往是有原因的。它们使专家之间能够进行精确和清晰的交流。然而,当它们脱离了原来的语境,以膨胀的方式使用时,它们实际上会成为一种 "流行语宾果",失去了术语的真正含义。

亵渎的解释:OCR和它在一些公司的表现

光学字符识别(OCR) 基本上是一种允许计算机从图像或印刷文件中 "阅读 "印刷或手写文本的技术。

想象一下,你有一张照片,上面写着 "上午9点至下午6点开放 "的标志。你可以 Tesseract OCR 对这一文本进行数字化。

以下是你可以在命令行中输入的启动魔方的命令,见 安装指南(假设图像被称为 "schild.jpg"):

魔方盾牌.jpg输出

这个命令告诉Tesseract获取图片 "shield.jpg",并将识别的文本写入一个名为 "output.txt "的文件中。

如果你随后打开产生的文件 "output.txt",你可能会看到以下文字:

开放时间为上午9时至下午6时。

现在是一个 "原始 "文本,你可以进一步处理,在某些情况下,除了原始文本外,还会返回字母的光学位置,参见 边界框(BoundingBox).但请记住,Tesseract(或任何其他OCR软件)不会自动识别这些是开放时间,或 "上午9点到下午6点 "代表一天中的特定时间。这种解释和分析超出了纯OCR的基本功能。

然而,很快,OCR就成为奇迹般的治疗方法

这就是OCR的基本功能。在该技术的早期,这已经是一个相当大的成就,因为它节省了大量的手工工作,使编辑和搜索数字形式的文本成为可能。

然而,随着时间的推移,一些公司已经大大扩展了OCR的表现形式,并将其作为一种解决各种数据和文件管理难题的灵丹妙药来推销。他们将 "OCR "作为数据提取等任务的解决方案、 文本分析文件的自动分类以及更多。

然而,在现实中,许多这些先进的功能并不是OCR技术本身的一部分,而是将OCR与其他技术相结合的结果,如人工智能、机器学习或其他技术。 自然语言处理.因此,即使是较新的模型,如来自美国的模型。 铺设LM, R-CNN或Pegasus 始终以OCR为基础。

最近的研究认为,OCR作为一种技术可以完全消除图像和文字处理之间的联系,见 多纳特纸业.

虽然这些强化的解决方案无疑是有价值的,并能提供显著的好处,但重要的是要记住,"OCR "本身只是拼图中的一块而已。它使机器能够 "看到 "和识别文本,但通常在 "OCR "一词下销售的额外功能需要额外的技术和技能。

我们还需要技术术语吗?

无论你发送什么,人工智能都会将其分解成机器可消化的文本、布局、图像、页数等组成部分。

丹-卢卡里尼、 文件、内容、文件、记录、半结构化或非结构化数据:标签真的很重要了吗?

我非常欣赏丹的有些夸张的执行力。然而,我们必须在一个特定的点上持不同意见。特别是,他的说法: 首先,GPT和其他基本的LLM并不关心我们给它理解和分析的 "东西 "使用什么通用标签。一个人工智能模型不会区分 "结构化"、"半结构化 "或 "非结构化 "的文件/内容/数据/文件;那是人类对我们的东西的分类方式。无论你发送什么,人工智能都会将其分解为机器可消化的文本、布局、图像、页码等组成部分。

诚然, 大型语言模型(LLMs),如GPT-3 可以在非常基本的水平上处理内容,但它们并不单独能够执行复杂的任务,如页面分割或深入的、基于上下文的文本处理。LLMs是一个强大的工具,但它们不是所有类型的文件处理的唯一解决方案。

清晰的选词,却又不简单!

各种研究,特别是在页面分割方面的研究表明,目前最好的处理质量是通过对文件进行上下文分割来实现的。这意味着模型不仅考虑到文本本身,还考虑到文件的结构和布局。视觉背景的使用有助于更好地理解和处理文件。例如,文档中的表格不仅仅是连续文本的集合,而是一个结构清晰的信息块,应该以某种方式进行解释。

较新的LLM也可以从上下文处理中受益。LLM处理的纯文本信息可以被上下文信息大大加强,比如 "这个文本是在一个表格里"。了解上下文可以引导模型以更接近人类解释的方式来解释文本。

总之,我们不应该低估特定领域概念的重要性。它们不仅是人类的特异功能,而且可以帮助使人工智能模型更加有效和准确。对 "结构化"、"半结构化 "或 "非结构化 "文件的处理很可能是不同的,产生不同的结果。取决于用于处理的确切方法。根据应用场景和具体要求,不同的方法是合适的。

总结

也许解决方案是完全摒弃技术术语,但要更自觉和谨慎地使用它们。教育和理解是这里的关键词。作为专家,我们有责任确保我们不仅使用正确的术语,而且还传达它们背后的含义。

尽管我们很欣赏丹对过度使用技术术语的批评,但我们认为把知识和背景的划分完全交给人工智能的建议是有问题的。毕竟,作为专家,我们的工作是让复杂的概念变得可以理解,同时保持精确和科学的正确性。

让我们避免流行语宾果。只有明知故犯的技术术语才能创造知识并保持其意义。这样我们就能确保我们在行业中的交流不仅是准确的,而且是可以理解的。

但是,即使是我们的编辑团队也肯定过多地使用了一两个词,而且没有准确地定义它们。如果你注意到什么 联系我们 而我们修复了一个可能的流行语。

关于我

更多精彩文章

穆罕默德-阿明-迪亚卜

您好,我是Mohamed Dhiab 👋。

我是一名经验丰富的机器学习工程师、研究助理和全栈开发人员,擅长为客户开发创新的技术解决方案。

阅读故事
银行的数字化转型

超越数字虚无主义:银行业的有效数字转型

是关系,而不是技术,构成了我们生存的核心。商业在信任的阴影下蓬勃发展....

阅读故事

购物车中的隐形伴侣 - 嵌入式保险

在创新领域,一种颠覆性的模式正变得越来越重要:P2P 模式,即 "从购买到保护"。

阅读故事
箭头向上