指示1

从文件中提取数据--如何做I

Maximilian Schneider

本文章以德语撰写,可自动翻译成其他语言并进行重读。我们欢迎您在文章末尾进行反馈。

如何用Konfuzio启动你的项目

为了了解基本知识 Konfuzio平台 我们推荐这个教程,它教你如何在短短几分钟内用5个文件训练你自己的AI。要做到这一点,你可以观看下面的视频,或按照下面的步骤进行操作。视频 在YouTube上观看.


 


文件AI分步指南

 

  1. 创建新项目

    点击 "主页">"项目"> 添加项目+ 来创建一个新的项目。为你的项目命名。在我们的例子中,它被称为 "收据"。通过 "保存 "保存该项目。你可以通过 "主页">"项目邀请">邀请其他用户加入你的项目。 添加+ 邀请。

  2. 创建一个标签

    单击 "主页">"标签">"标签"。 添加标签+ 来创建一个标签。命名你的标签。在我们的例子中,它被称为 "总金额"。通过标签(这里:"收据")将其添加到你的项目中,并点击 "保存"。 

    点击 "主页" > 模板 去找模板。点击有你的项目名称的模板(这里:"收据")。使用箭头按钮将您创建的标签添加到模板中,从 "可用的标签 "添加到 "选定的标签"。通过点击 "保存 "进行保存。在下一个教程中,你将学习如何使用模板来阅读复杂的文件。

  3. 上传文件

    点击进入 文件.你可以通过拖放或浏览器窗口在这里上传你的本地文件。点击重新加载按钮,在上传后重新加载页面。现在OCR过程开始了。根据文件的大小,这可能需要一些时间。我们现在正在上传9张收据(5张培训和4张测试文件)。

  4. 标签

    一旦OCR过程结束,你就可以通过 "Smartview "访问你的文件。OCR将把你的文件中的信息划分为实体。"实体 "是指用虚线框住的单个单词或信息片段。当你点击它们时,它们的背景会变成绿色。"注释 "是文件中要被检索或使用的相关信息。它们是已经被分配了一个标签的实体,这是由人类手动或由人工智能自动完成的。如果你想给一个标签分配多个实体,请使用我们的套索。要做到这一点,按住鼠标指针,拖动出现在你想标记的实体上的红色套索。
    点击你想标记的实体(这里如 "48.60")。在右侧的注释栏中,你会看到实体的内容正在被OCR读取。点击 "保存",将创建的标签分配给实体(这里:"毛额"),从而将其转换为注释。

    在一个更复杂的项目中,你现在必须选择它是什么类型的模板,以及它位于文件的哪个部分。这就是上部标签的作用。然而,在本教程中,我们将只处理基础知识,这就是为什么你在这里只有一个标签可供选择。

    对所有上传的文件重复第4步。使用箭头在文件之间切换。

  5. 分为训练和测试数据

    在所有文件都被标记后,现在可以将它们分为训练和测试数据。 

    训练数据集包含人工标注的文件,在此基础上,人工智能学会了如何自行标注文件。测试数据集也包含人工标注的文件。在这里,人工智能试图在从训练数据集学到的知识的基础上对其进行标注。由人工智能创建的文件随后被 注释 与那些由人类创造的,并进行统计学评估。 

    在文件视图中,你现在可以勾选每个文件名左边的方框来选择文件。在我们的例子中,我们选择了5个文件,并在底部的动作标签中选择 "添加到训练数据集 "的动作,然后点击 "开始"。然后,我们选择剩下的4个文件,重复 "添加到测试数据集 "的动作。 

  6. 开始重新培训并评估结果

    点击 "主页" > 项目.找到你的项目并打上勾。在行动选项卡中,选择 "重新训练AI模型",并点击 "开始"。一条写着 "AI模型重新训练已经开始 "的横幅。这可能需要长达24小时。"出现。在像这个例子项目这样的小项目中,只需几分钟就应该训练完毕。 

    要检查新训练的人工智能模型是否准备好了,请点击 "主页">>。 AI模型.这里列出了包括基于测试数据的定量评价。

  7. 提供反馈

    如第3步所述,上传一个新文件。在经过OCR过程后,点击 "Smartview"。在这里,你可以修改由人工智能产生的注释。点击绿色的"√"来确认正确的建议,用红色的 "X "删除不正确的建议。同时添加任何遗漏的注释。 

    现在你可以像第5步那样把这个文件添加到训练数据集中,以增加它,从而改善人工智能模型,或者你可以导出信息。如果你没有得到任何结果或结果很差,请检查你在步骤4-6中是否做对了一切,或增加你的训练文件的数量。

  8. 输出你的结果

    选择你想下载的数据的文件,打上勾。如果你在这里选择几个文件,它们将被合并到一个CSV文件中。在行动选项卡中,选择行动 "获取人类修订的数据作为csv文件",并点击 "开始"。CSV文件的下载应自动开始。CSV文件可用于电子表格程序,如Microsoft Excel、Google Sheets等。


有什么问题吗?我们一直在努力改进我们的说明,以便您能够尽可能快速和容易地使用Konfuzio。如果有任何问题没有得到解答,请让我们知道,以便我们能够为您提供尽可能好的解决方案。谢谢你!

照片来自 Brandon Montrone 从 Pexels

关于我

更多精彩文章

树干上的结孔

从文件中提取数据 - 如何 III

统一的训练数据。理论与实践 在学习了指导1的基础知识和指导2的章节后,你应该...

阅读故事
捕获送货单OCR

送货单OCR通过扫描仪自动提取数据

通过文件AI和OCR,你可以自动提取送货单上的所有信息。用户界面,允许信息...

阅读故事
勺子上的各种调料

用AI为您的文件管理进行分类

在线实施文件管理 本教程是关于用AI对文件进行分类。与此相反的是,...

阅读故事

    箭头向上

    本文章以德语撰写,可自动翻译成其他语言并进行重读。我们欢迎您在文章末尾进行反馈。

    导航