Deepdoctection是一个Python库,它利用深度学习模型来协调文档提取和文档布局分析的任务。
Deepdoctection专注于应用,是为那些想从PDF或各种图像格式的扫描件中提取文档的相关方案的人制作的。
本文章以德语撰写,可自动翻译成其他语言并进行重读。我们欢迎您在文章末尾进行反馈。
网站与作为信息载体的文件和扫描件的对比
假设你想评估一个网站的评论。只要有一点编程经验,你就可以在短时间内创建综合研究,如情感分析。
现在假设你想再次评估客户的反馈。但这次的信息是以扫描的形式出现。也许这些表格并不都是相同的,有些是手工填写的。在这种情况下,你将不得不花费更多的时间来实现你的目标。
但是有什么大的区别呢?
只要你想从网页上获得信息,你就必须通过网络爬行来获取数据,并对其进行准备,以便在原始的HTML表示中只保留你分析所需的信息。在分析之前,一个基于规则的方法就足够了。
现在让我们继续讨论表格:在这里,你可能有一个数字化的文件,但这个文件以像素形式存储其内容,也就是说,以成千上万的0到255之间的数字存储。 现在你可以做一个 OCR引擎 在它上面,你会得到一个单词和坐标的组合。
现在,真正的工作开始了,因为你现在必须赋予表格结构:比如说:我如何识别表格中的实体?哪些词块属于一起?有哪些结构,如表格或段落?
为了解决这样的问题,你需要一个工具的基金。一方面,人工智能可以提供帮助,但另一方面,人工智能需要进行协调,才能作为一个整体有效。
deepdoctection - 文档AI的管道
deepdoctection是一个基于Python的开源框架,它帮助你在 萃取 的信息的文件。你会发现 源代码在Github.

图像和文字的使用
与普通的自然语言处理框架相比,deepdoctection提供了创建管道的可能性,其中可以使用多模态模型,除了文本之外还可以读取图像信息。这包括 词语和文本片段的位置信息 或整个图像。事实上,已经证明,特别是对于来自日常商业世界的文件(表格、报告、演示文稿),考虑到视觉信息的人工智能模型在提取方面效果更好。这包括 布置LM系列,是由微软开发的一组模型。
通过深度检测,你可以将这些模型与OCR结合起来使用,进行文档分类或 实体提取 试试吧。
布局分析和表格提取
此外,深层探测提供了可能性、 文件布局分析的模型 要使用的。这些对于将文件结构化为特定区域,如表格、数字或列表元素非常有用。
表格也可以被重构并提取为csv文件,甚至是HTML结构。你可以使用Deepdoctection 简单的在线测试.

OCR
OCR 是另一个重要的组成部分,为此,deepdoctection提供了使用不同OCR框架的可能性。这些框架包括最著名的开放源码框架 宇宙魔方但也有更现代的DocTr,它为许多用例提供更准确的结果。
开源的基本模型
deepdoctection提供了使用各种高质量开源库的基础模型的可能性。特别是在一个简单的调用中执行多个人工智能模型是deepdoctection的优势。
训练和评估模型
没有一个模型适用于所有的用例。但是,通过在你自己的数据上训练模型,可以明显提高准确率。deepdoctection为各种基本模型提供了预配置的训练脚本,所以你不必费力地寻找一个合适的设置。
在你把一个模型搬到现场之前,你需要对它进行评估,看看预测结果在你还没有看到的数据上是否足够准确。为此,deepdoctection提供了指标和评估工具,你可以用它来全面评估你的模型的预测能力。
创建数据集
deepdoctection提供了创建和注册自己的数据集的可能性。这促进了基本模型的训练,也提供了结合几个数据集的可能性。
闭幕词
探索文档人工智能的可能性。使用deepdoctection来解决你自己在文档AI中的用例。
初学者和高级课题的教程都以Jupyter笔记本的形式提供。此外,你还可以找到关于该框架的架构和API的全面文档。
如果你有任何问题,请发布问题或使用Github上的论坛。
关于deepdoctection的作者

Janis Meyer博士多年来一直作为独立的机器学习工程师和管理顾问工作。
处理的触发器 文件AI 他的课题是一个涉及从财务报告中提取特定关键数字的项目。
他开发了deepdoctection,在很短的迭代周期内创建新的机器学习模型,以解决文件中的AI问题。 管道 来整合。
Janis Meyer博士为终端客户和平台运营商提供智能自动化主题的引进和创新方面的建议。这包括一般咨询以及项目、实施、测试和生产监测。
Konfuzio与deepdoctection的比较
deepdoctection可以在Konfuzio中用来实现个别用例。因此,Konfuzio提供了在较短的迭代周期内测试新模型的可能性,如果评估成功,就可以迅速将其纳入生产过程。