本文章以德语撰写,可自动翻译成其他语言并进行重读。我们欢迎您在文章末尾进行反馈。
统一的训练数据。理论与实践
在你学习了以下的基本知识后 指示1 和章节中的 指示2 你应该准备好在你自己的项目上工作。
我们的客户提出的典型问题。
我们已经伴随着许多客户的项目,我们被反复问到以下问题。
- 训练数据集必须是什么样子的?
- 我到底应该标记什么?
- 我是否应该在欧元符号上标注一个货币数额?
- 我是否也应该对文件中多次提到的日期进行标注?
- 我应该在项目列表中加入逗号吗?
由于Konfuzio有很大的通用性,许多答案取决于个别情况。你的问题肯定会在一定程度上与这些问题不同。然而,仅仅通过了解我们的人工智能是如何思考和工作的,大多数问题都会得到澄清。我们将利用这一原则来回答这里的问题。
我们还向你展示实用的 成功培训过程的提示。
问题与解答
Konfuzio人工智能的工作不是基于规则,而是面向结果。它将训练数据视为期望的结果,并将为自己设定规则,以便将其应用于新的文件,并试图取得相应的结果。为了让它能够在这个过程中识别出清晰的结构,在手动贴标时也应该以清晰的结构方式进行。对我们人类大脑来说没有区别的不规则现象会导致人工智能寻找不存在的规则和结构,使它更难做出正确的决定。
文件之间越是统一或同质,结果就越是准确。标准化或规范化的文件是最佳选择。然而,情况通常不是这样的,而且是自己无法控制的。原则上,这对Konfuzio来说不是问题,但这意味着训练数据的质量和数量的重要性随着文件的异质性而增加。
简短的答案是:给你想以后读出来的东西贴上标签,但要连贯地做。
例如,对于货币金额,你应该总是标注货币(如欧元符号)或总是省略它。你选择哪种方式并不重要。重要的是,在所有的文件中都要这样做,而且在一个文件中也只能用一种方式。当然,这也适用于其他单位,如公斤、平方米等和其他综合信息。
让我们来看看下面的例子。日期在一个文件类型的所有页面的右上角。是否必须在所有页面上标明日期?在一个有许多页的文件中,这可能是相当耗时的。通常情况下,这仍然是在第一份文件中进行的,然后在第二份文件中,日期只在前3-4页上标注,在第三份文件中只在第一页上标注。
这里出现了以下问题。AI会寻找一个理由,为什么第一份文件第五页上的日期是相关的,而第三份文件第二页上的日期却不是。但由于这里没有任何有意义的理由,用人类的话说,人工智能会 "迷惑",这对结果有负面影响。
为了防止这种情况的发生,关键词统一性再次适用!要么在所有页面上始终标记重复的信息,要么始终只在第一页上标记。
为了保持一致性,在阅读课文中的单个单词时,逗号、句号、括号和其他标点符号不应标明。你应该只标记你想读出来的实际内容。标点符号通常来自于句子结构的上下文,但基于训练数据是相当随意的,因此不适合为预测的目的进行分析。否则,在未来,人工智能会在要读入的单词末尾寻找一个逗号,即使它与寻求的信息无关。
成功培训过程的提示
现在你已经了解了如何通过统一性创建高质量的训练数据的理论,我们想给你一些实用的提示,你可以用来在你的项目中实施这一理论。
创建一个标签指南
标识指南是一份文件,其中包含了对某一文件类型进行标识的基本和特殊规则。它描述了要标记的内容和方式,并经常有截图支持。在有几个人参与贴标签的大型项目中,这些往往被证明是必要的。目标是上述的统一性,这是由所有参与者遵守这些准则来实现的。当几个人在同一个文件上工作时,他们经常以不同的方式来标记文件。对于只有几个人的简单文件,口头协议往往就足够了。然而,对于一个复杂的项目,我们推荐我们的模板。
请随时通过以下方式联系我们 联系表格以获得一个模板。
使用四眼法
检查你的训练数据。即使是有经验的用户也会犯错。为了尽量减少错误,你最好至少让另一个人审查你的 注释 检查是否准确和一致。通过这种方式,可以发现并纠正粗心大意的错误和对标签指南的偏离。特别是,不正确的章节分配会大大降低人工智能模型的质量。你可以看到如何检查这个问题,在 指示2.
你也可以使用以下方法,在审查期间有效地分配任务。当人1给文件贴上标签后,他们就把它添加到准备数据集。这样,第2人就知道它已经准备好接受审查。当第2人在审查后将文件添加到训练数据集后,每个参与的人都知道它已经被审查了。
预约每周报到
每周一次的会议有助于你的团队建立共同的理解。我们建议在这次会议之前举行一次务虚会,见 指令1中的步骤6.在这个会议上,你可以分析最新模型的评估,并自动识别和讨论测试和训练数据中可能存在的错误。Konfuzio专家可以直接在会议中带来宝贵的技巧和窍门。
有什么问题吗?我们一直在努力改进我们的说明,以便您能够尽可能快速和容易地使用Konfuzio。如果有任何问题没有得到解答,请让我们知道,以便我们能够为您提供尽可能好的解决方案。谢谢你!