打开笔记本电脑,屏幕上可以看到HTML代码

我如何一步一步地从PDF到文本?

丹尼尔-魏斯曼

多年来,PDF文件格式已经确立了自己作为数字分发文件的标准。每台设备,无论是PC、智能手机还是平板电脑,都能够阅读PDF。从一开始,观众就一直是免费的。这在很大程度上促进了它们的广泛使用。该格式也在不断扩展,例如能够填写表格或设置签名。然而,当你想处理PDF文档中的信息时,问题就开始了。手动复制和粘贴很少奏效,因为文本往往也被保存为图像信息,更不用说时间方面了。供应商以各种方式处理这个问题,以便以结构化、自动化和智能化的方式进行PDF到文本的转换。我们想在这里仔细研究一下这些过程。

文本到PDF转换的背景

当人们谈到PDF到文本的转换时,一般是指转换器自动提取PDF文件的文本内容并将其转换成可编辑的文本格式的过程。如果你想进一步处理PDF文档中的文本或在另一个应用程序中使用它,这可能是有用的。有许多工具和服务可以使这一过程自动化并促进PDF到文本的转换。其中一些工具还提供了保留特殊布局或格式化元素(如表格或段落)的选项,以确保文本在新的应用程序中得到尽可能好的再现。当你想从扫描的PDF文件中提取文本时,PDF到文本的转换也是有帮助的,因为字体只作为图像信息存在。OCR(光学字符识别)技术被用于这一目的,它解释图像信息并生成文本。

根据用户的能力和将PDF转换为文本的目标,Konfuzio提供了各种提取文本的选项(例如,作为TXT或Word文件)。这些都是一目了然的。

  1. 手工过程: 对于偶尔的转换,可以将PDF文件手动上传到转换平台,然后以下载的方式接收读出的文本,以便进一步进行单独处理。
  2. 通过应用编程接口(API)。对于更多的文件量,可以使用灵活的API来创建高效的流程,通过少量编程实现PDF到文本的自动转换。
  3. 通过方案库转换功能可通过程序库直接在你自己应用程序的源代码中使用。这里非常流行的是为编程语言Python提供的服务。

变体1:人工处理的说明

  1. 打开一个公共的PDF到文本转换器。这些往往允许自由转换。
  2. 按照平台的指示,从你的本地计算机上传你自己的PDF文件到平台。
  3. 在上传PDF文件后,该平台会生成纯文本,通常还是非结构化的。该文本可在网站上的一个文本字段中复制。或者该应用程序已生成一个文本文件供下载。
  4. 将生成的文件或网页上的文字直接复制到Konfuzio平台的TextView中。
  5. 只需将标签带到这里(注释)直接作用于仍然非结构化的数据,以便对数据的具体形式进行人工智能训练。

通过TextView进行手动注解

变体2:通过API将PDF转为文本的说明

这个变体需要编程知识。此外,人们需要清楚地了解哪些类别的文件可以预期,以便在转换后尽可能有效地进一步处理文本。

  1. 该文件通过API命令加载到服务器上。为此目的,指定了类别和相关项目(在这里试试吧)
  2. 一旦上传成功,该文件就会出现在Konfuzio管理员界面上,并已被分配到正确的类别。
  3. 然后,文本信息已经由Konfuzio读出PDF,并提供给方案(在这里试试吧)
  4. 现在可以通过管理员界面打开该文件,为文本信息分配注释,以便对信息进行分类。有了训练有素的人工智能,这一步也就自动化了。

使用Konfuzio API将PDF转换成文本

在一个说明性的视频中,全面介绍了使用API的工作情况 这里.

变体3:使用Python SDK的说明

对于已经熟悉Python的开发人员来说,使用Konfuzio Python SDK作为代码库来快速集成转换和处理功能是特别容易的。这里已经以一种用户友好的方式实现了API调用的整合。它的功能非常强大,但我们想在这里集中讨论PDF到文本的转换。

  1. 如果这是第一次使用SDK的功能,开发者必须首先在自己的开发环境中下载并安装。(更多内容请点击这里)
  2. 将SDK程序库导入你自己的源代码中。

    从konfuzio_sdk.data导入项目

  3. 要加载的PDF文件应该由程序找到。它可以是在线的,也可以是在本地硬盘上。文件被打开,二进制数据被缓存起来,以便在目标环境中处理。
  4. 在下一步,Konfuzio将上传命令upload_file_konfuzio_api配置为必要的参数(文件名、项目ID、状态)并执行。
  5. 只要上传完成,该平台就已经通过OCR将PDF转换为文本。这可以通过项目对象轻松读出。

在概述中,代码看起来是这样的。

从konfuzio_sdk.data导入项目

project = Project(id_=11957)

from pathlib import Path
进口请求
文件名 = Path('energycertificate.pdf')
url = 'https://www.energieausweis-online-erstellen.de/app/uploads/2016/09/muster-bedarfsausweis.pdf'
响应 = requests.get(url)
print(response.status_code)
响应 = requests.get(url, stream=True)
如果 response.status_code == 200:
  with open(filename, 'wb') as pdf_object:
    pdf_object.write(response.content)
    print(f'{filename}被成功保存!')

from konfuzio_sdk.api import upload_file_konfuzio_api

request = upload_file_konfuzio_api(filename, project_id=project.id_, dataset_status=2)

project.get(update=True)
[document.status for document in project.documents]

project.document[-1].text

对图像的处理非常相似。关于如何使用Konfuzio Python SDK的更多例子和说明可以找到 这里.

提取了文本,现在怎么办?

正如这些例子所显示的,转换文件是不够的。只有当文本还可以进一步使用时,它才能为转换的努力提供附加价值。通过Konfuzio,可以手动标注数据类型(发票日期或账户号码)。但这仅仅是第一步。因为在后台是分析所有新文件的人工智能。手工标签可作为人工智能的训练材料。它很快就接管了,并且越来越有能力在文本本身中识别和分类数据。它可以学习不同的文件类型。通过这种方式,即使是大量的文件也能被快速分析,对数据进行结构化处理,并为进一步使用准备信息。通过这种方式,PDF文件的数据可以被整合到以下的业务流程中,大大减少了人工的工作量,而且 自动处理 成为。

0条评论

Schreibe einen Kommentar

更多精彩文章

Konfuzio标签工具-从图像和PDF中提取数据

作为一个数据科学家或注释经理,你可能会面临以下问题:你想从大量的PDF文件中进行选择,或者是将其与其他文件分开。

阅读故事

IDP: 智能文档处理的定义和应用

许多公司正在寻找新的方法,通过智能自动化....,将文件数字化并优化其流程。

阅读故事
AI数据提取

从PDF和其他类型的文件中提取AI数据

现代公司必须处理大量的发票、信件和其他文件。问题是:发送者没有以任何方式遵守...

阅读故事

    联系我们!

    箭头向上