从文件中提取数据 - 如何二

您阅读了原始德文帖子自动翻译的版本。

如何通过使用模板来优化你的项目

在你输入了 第一条指令 我们已经了解了基本情况,现在我们可以更进一步了。 

在本教程中,我们还将使用我们的收据数据集。然而,这一次,我们将处理列出的个别服务。为了合理地标注它们,我们将首次使用章节。这里很重要的一点是,我们不仅要教人工智能哪些实体属于哪个标签,还要教它注释之间的关系。 

当我们阅读一个产品的价格时,只有当我们也知道这个价格属于哪个产品时,这个信息才会有用。这同样适用于数量和我们想读出的所有其他信息。因此,所有属于一个产品并因此属于彼此的注释被归入一个部分。 

在这个例子中,各部分在内容上对应于产品,在格式上对应于行。这些标签在内容上对应于产品的属性,在格式化层面上对应于列。 

因此,所有相关的实体都被分配了两块信息,即部分和标签。图片中的彩色标记说明了这一点。

节和标签

列表和表格等都需要这一原则。我们将通过这个例子向你展示如何将这些教给人工智能。


分步指南

  1. 创建项目

    我们使用与第一个教程中相同的项目。如果你想创建一个新的,你可以再看看如何创建一个项目。 

  2. 创建新标签

    单击 "主页">"标签">"标签"。 +添加 并在那里添加你的标签。
    在我们的例子中,这些是:"数量"、"描述"、"单价"、"小计 "和 "增值税代码"。

  3. 创建一个模板

    模板是一组站在事实逻辑背景中的标签。因此,它们是各部分的抽象模板。单击 "主页">"模板"> +添加 来创建一个新的模板。命名你的模板(这里:"个人服务")。选择相应的项目(这里:"收据")。勾选 "有多个部分 "的方框。点击 "保存并继续编辑",进入下一步骤。在这里,你可以用方向键将你刚刚创建的标签添加到模板中。点击 "保存 "来保存模板。

  4. 创建训练数据

    章节是文件中相关信息的组别。它们是模板的具体表现。在我们的例子中,第一部分包含了第一个产品的所有信息,即收据的顶线或第一个单独的服务。
    为了标记第一节,我们创建一个属于第一节的注释。点击正确的实体后,我们可以在右侧的注释栏中用两个标签确定注释的属性。在上面的标签中,我们选择与该部分相对应的模板,在下面的标签中,我们选择应该分配给实体的标签。
    我们在顶部选择 "单一业绩(新)",在底部选择 "数量"。然后,我们给其余部分贴上标签,这样,第一部分现在就显示为 "单一表演"。我们在接下来的章节中重复这一点。然后将这些内容列在从上到下编号的标签中。要创建一个额外的部分,选择 "单一性能(新)"。

    我们对所有培训文件重复这一过程。根据我们的例子创建你的训练数据。由于应用领域的多样性,可能会出现差异。例如,章节并不总是必须与行相对应。

  5. 检查训练数据

    你可以检查标签的正确性,因为它们显示在注释的上方。然而,对于人工智能的学习成功,同样重要的是你要检查标签是否被分配到正确的部分。要做到这一点,你可以做到以下几点。 
    在注释栏的右上角,选择 "过滤器 "下的 "部分 "标签中的第一个部分(这里:"个人表现")。现在,只有第一部分的标签应该是可见的。通常你可以一眼看出这些是否正确(这里:所有标签是否在一行)。如果你认识到一个错误,你可以通过注释栏的 "编辑 "来纠正这个错误。(提示:在检查人工智能的结果时,你也应该使用这种方法)。

  6. 评估结果并给予反馈

    你可以看到如何将你的文件分成训练和测试数据集,并在第一个教程中训练AI。它还展示了如何向人工智能提供反馈。

  7. 输出结果

    你也可以在第一个教程中看到如何导出你的数据并下载它们


有什么问题吗?我们一直在努力改进我们的说明,以便您能够尽可能快速和容易地使用Konfuzio。如果有任何问题没有得到解答,请让我们知道,以便我们能够为您提供尽可能好的解决方案。谢谢你!

"
"
Maximilian Schneider 的头像

最新文章