用于智能文本处理的PDF到JSON转换

丹尼尔-魏斯曼

许多技术现在已成为日常生活的自然组成部分。视频是自动润色的。网上商店在我们之前就知道我们想买什么。一张图片,如JPG或PNG,或一个希腊菜单的PDF文件,就足以实现自动翻译。我们假设它与人工智能有关,有大量的计算能力。只有当某些东西没有按照我们认为的方式运作时,他们才会受到质疑。但是,计算机只有在我们给它们提供的算法和数据中才是智能的。

而这正是JSON发挥作用的地方,这种结构首先使处理成为可能。如果只是以实用的格式传输PDF,使用JSON对二进制PDF文件进行序列化就足够了。这方面有一个明确的概述 这里.但是,当要以结构化的方式从PDF中读出数据,从而可以进一步处理时,怎么办?我们在这篇文章中更详细地解释了这一点。

到底什么是JSON

JSON代表的是 JavaScript对象记号.它提供了一个清晰的格式来存储结构化数据。结构化数据是,例如,申请表上的个人详细资料。或者说是菜单上的食物和饮料清单。最初,开发人员使用JSON来传输IT系统中的数据。这方面的一个例子是用户输入到移动应用程序的数据。为了传输到服务器,该程序将数据翻译成JSON格式。这里的好处是,JSON文件也可以被人类阅读。在使用JSON之前,XML文件被用于这一目的。然而,这些东西更难读取,需要明显更多的存储空间,因此需要传输时间。

我们来看看一个例子。让我们假设有一个PDF文件,其中包含这个图片中的数据。

PDF到JSON转换的表格实例。
用于进一步处理成JSON格式的PDF样本表格

该PDF包含不同类别的个人数据。在转换为JSON时,文件的数据和类别可以放到以下结构中。

{
  {"律师"。
  {
    }, "名字": { "John Doe & Jane Doe",
    { "名字": null,
    },"地址"。
    {
      },"街道号码":"1234"。
      "街名":"ABC街"。
      "城市":"旧金山"。
      "州": "加州"
      { "邮政编码": "94102"
    }
    "电话号码":"415-123-4567"。
    },"电子邮件":"[email protected]"。
    } "传真号码": null
  }
}

JSON格式的结构可以根据要求进行设置。所有字段都可以被映射。即使是复杂的表格也可以通过嵌套来很好地表示。空值是可能的,可以定义文本或数字。当数据不再来自在线表格而是来自PDF时,转换的复杂性就出现了。

为什么不使用XML或HTML来转换PDF?

XML也提供了映射复杂结构的可能性。为通过XML模式和定义使这些结构正规化作出了巨大努力。然而,这并没有改变所传送的文件包含大量冗余信息的事实。传输的很大一部分是由XML结构组成的,而不是读取的数据。

更确切地说,HTML也是一种XML格式。然而,此外,HTML并不是为交换数据而设计的。相反,它被专门用来定义网页的布局。HTML结构的页面,允许通过进一步的脚本语言或库(如JavaScript或Vue.JS)整合图形信息或互动功能。使用HTML来交换数据,就像用筷子喝汤一样:是可以的,但很繁琐。

PDF到JSON的转换是如何进行的

PDF文件可以包含一个明确定义的形式。例如,我们看到的是官方表格,如来自登记处或税务局的表格。然而,除此之外,也有许多免费的格式。信件通常包含一个地址、一个日期或可能的银行信息。然而,格式、字体、位置或完整性可能有很大不同。

对于这两种PDF格式,第一步是文本识别(OCR)被使用。它能识别字符并将其转换为计算机可以阅读的文本。即使在这里,选择正确的软件也很重要,这样在第一步就不会出现错误。电话号码的识别是否正确?手写的条目能被识别吗?是否有污点或难以阅读的打印内容?复杂的算法,由 人工智能允许绕过这些障碍。

转换已知的PDF结构

对于已知格式的PDF,算法就已经可以通过识别的文本的位置来识别上下文了。因此,该算法可以识别姓名、地址等,并可以将这些信息直接转换为JSON结构。为此,有一个模板,一个预定义的格式,在其中输入找到的数据。该方案还可以快速识别缺失的数据。

将复杂的PDF转换为JSON

具有复杂内容或未知结构的PDF文件需要更多的智能。归类工作不能再由人工输入完成。相反,有必要采用人工智能方法。该算法是针对一类文件进行训练的,比如说 账单并因此学会识别相关信息。他从许多PDF的例子中了解到地址或银行信息可以是什么样子。它了解到,一个日期可以有不同的格式(2023年1月18日,18-01-2023或2023/01/18)。这在AI网络中创建了类别,然后可以转移到JSON格式。如果人工智能还不能确定地识别某些类别,人们还可以另外实现回退逻辑。

使用Python将PDF转换为JSON

对于处理,有各种库、产品和供应商提供了非常好的文本识别和AI支持。用于处理能力、训练人工智能算法和将输入文件转换为JSON的非常流行的编程语言是Python。Python是一种简单但功能强大的脚本语言。长期以来,Python一直被广泛使用,特别是在人工智能应用中。由于编程库特别是Python的高可用性,转换算法的整合非常容易。

Konfuzio 在Python中训练人工智能的一个简单例子(在节选中)看起来是这样的。

project = Project(id_=None, project_folder=OFFLINE_PROJECT)
category = project.get_category_by_id(63)

pipeline = RFExtractionAI(use_separate_labels=True)
pipeline.category = category
pipeline.test_documents = category.test_documents()
...
evaluation = pipeline.evaluate_full()
pipeline_path = pipeline.save(output_dir=project.model_folder)

逐步从PDF到JSON格式

PDF到JSON的转换过程可以归纳为以下几点。

  1. 人工智能的训练

    首先,必须对应用程序进行配置,非常重要的是,系统的人工智能 接受有关文件格式的培训n.这意味着样本文件被加载到应用程序中,系统因此学会识别哪些信息是相关的以及如何找到它。

  2. 上传PDF文件

    培训成功后,允许上传的界面就建立起来了。例如,这可以是一个移动应用程序或一个网站。也可以实施自动程序,例如检查收到的电子邮件是否有PDF文件。然后,系统自动将这些内容上传到处理服务器。

  3. 数据的提取

    然后,该应用程序在人工智能的帮助下,自动开始识别所学的数据字段,并将其转换为先前定义的JSON格式的文本形式。无法阅读或结果存在高度不确定性的文件被标记出来,可以通过人工分析进行解码。然后,人工智能继续学习每个文件。

  4. 处理JSON文件

    完整的JSON文件通常不会被手动处理。相反,它在处理后被其他系统使用,自动使用读取的数据进行分析、业务流程或数据库更新。

更多细节和步骤 说明 可以找到带有代码示例的 这里.

该指南还表明,对供应商的选择不仅取决于功能的质量,而且还取决于可用性。这些功能必须有很好的文档,即使对初学者来说也是如此,这样才能真正利用其性能。

整体情况很重要

将PDF转换为JSON的另一个优势是与其他应用程序的高兼容性。几乎所有的数据应用供应商都允许处理JSON。因此,人们不依赖于加工链中的单一供应商。ǞǞǞ 进一步加工 读取的数据可以由云解决方案或本地应用程序接管,例如,将信息写入正确的数据库,将表格转换成Excel文件,自动生成回信或进行银行转账。这样,公司可以始终为每个工作步骤选择最好的产品和解决方案(最佳需求),也可以在未来更换个别组件,而不必投资于全新的基础设施。

我如何将PDF转换为JSON?

有各种各样的工具来承担这项任务。简而言之,它是指使用尽可能多的智能工具(人工智能),以通过低错误数增加处理量。这也需要对人工智能进行良好的培训。关于这一点的更多信息可以在这篇文章中找到。

如何将JSON转换为PDF?

也有很好的转换(返回)到PDF的解决方案。这里使用的是布局模板。这些定义了结果文件的外观。然后一个转换程序将JSON格式的可用数据插入该模板,并创建一个新的PDF文件。
这也可以通过其他文件格式(如Word或Excel)实现。

还有哪些格式适合转换为JSON?

一般来说,现代 OCR方案 读取所有包含图像文本信息的格式,并将其转换为JSON。除了PDF之外,还有TIFF、PNG或JPEG等图像格式。
重要的是,图像文件的压缩程度不能太强。这就避免了人为的假象和误解的字符。由文件扫描仪生成的文件通常具有足够的分辨率和质量。有了今天的OCR解决方案,即使来自移动设备的照片也足以进行正确的分析。随着文本识别质量的提高,转换为JSON的成功率也会提高。

  1. 关于使用JSON序列化PDF的信息。 https://wikis.ec.europa.eu/download/attachments/36701338/Mooney-Binary-Encodings.pdf?version=1&modificationDate=1633696451409&api=v2
  2. JSON的详细定义。 https://www.w3schools.com/js/js_json_intro.asp
  3. w3schools的XML概述。 https://www.w3schools.com/xml/xml_whatis.asp

0条评论

Schreibe einen Kommentar

更多精彩文章

物流数字化 标题

物流数字化:物流自动化如何运作

由于科罗纳大流行,物流业的数字化有了很大的飞跃,因为在同一时间,下降的...

阅读故事

IDP: 智能文档处理的定义和应用

许多公司正在寻找新的方法,通过智能自动化....,将文件数字化并优化其流程。

阅读故事
两名男子在笔记本电脑和iPad从上面的木桌上

Abbyy Finereader替代品:5大软件供应商

正在寻找Abbyy Finereader的替代品?Abbyy Finereader是一个PDF软件解决方案,旨在让你更容易地使用。

阅读故事

    联系我们!

    箭头向上