自适应提升--从薄弱的学习者到顶尖的决策者

并不是每一个机器学习模型都能直接提供令人满意的结果。虽然在很多情况下可以快速进行训练和实施,但代价是相应的准确性不足。这可能会导致错误,尤其是在预测性数据分析中。因此,我们需要一种方法,既能接近这些 "弱学习者 "的简单性和通用性,又能提高性能。一种普遍采用的方法是将多个模型相互结合,这被称为 集合学习.

人工智能 "锦囊妙计 "中的各个解决方案主要涉及 "装袋"、"堆叠 "和 "提升 "等概念,每个概念都包含不同的学习方法。它们的共同点是利用组合技术形成 "强学习者",从而在群集智能的意义上大大降低出错概率。

与其他集合方法相比,提升法的特点是单个模型是 陆续 训练有素,通常在 高失真低差异 可以应用。自适应提升法(简称 AdaBoost)承诺分类器具有无与伦比的准确性,尤其流行和强大。

自适应增强 - 定义和基础知识

adaboost 算法的定义和要点

AdaBoost 是一种集合学习算法,它基于多个 决策树 或类似的分类器。因此,该技术与 随机森林在这种方法中,模型通过袋装法并行学习。另一方面,AdaBoost 会像通常的提升一样,一个接一个地训练单个弱学习器。这些模型可以保持相对简单--直到 决定桩由于其单级性质,只能预测二元类别。AdaBoost 使用一个 监督学习过程 (有监督的学习),这是由准备好的训练数据的结构化性质所决定的。

从数据中学习、尽量减少错误并做出有理有据的决策是机器学习的基本原则。

在这里,实现这一点的方法是用相同的数据训练每个分类器,只不过在每个案例中出现的错误在未来会得到更高的权重。按照先后顺序,每个弱学习者都会从前者的不准确性中吸取教训,从而最终得到尽可能准确的分类、决策或预测结果。尤为重要的是,这一过程要不断重复,直到达到预期的预测准确度。

AdaBoost 如何工作

与机器学习一样,(神经)权重的调整在模拟学习过程中起着关键作用。AdaBoost 将不同的模型合并在一起,通过赋予单个分类器对整体预测的不同相关性,扩展了这一原则。这就是所谓的软投票。为了获得最佳权重,必须首先执行几个单独的步骤。先决条件是准备一个合适的数据集。

  1. 设置基本算法

    最初,需要一个合适的弱学习器,能够对数据点进行简单的预测。决策树桩--单层决策树--尤其常见。它们将数据集分割成单个决策节点。比较 基尼系数 应用于单一(二进制) 特点 有助于识别性能最佳的树桩。这就形成了集合模型的基本算法,之后还有其他算法。

  2. 误差计算

    然后为数据集的每个实例引入权重,这样就可以提取样本,并确定每个实例中已分类目标变量的正确性。通过这种方法确定的不正确数据点可在后续流程中获得更高的权重。

  3. 分类器的加权

    根据误差率,AdaBoost 可以计算出单个分类器对集合模型的新意义。准确率越高或错误越少,整体预测的 "发言权 "就越大。这也是下一步的重要数学基础。

  4. 更新样本权重

    原本平衡的样本权重现在也会根据第一个分类器的错误数据点进行调整。在随后的程序中,这些数据点会得到更多的考虑,而正确的预测则会得到较低的权重,因此也会加强训练效果,并使误差函数越来越小。

  5. 迭代

    利用误差最小化优化的分类器和/或利用样本权重修正的数据集,可以多次重复上述步骤。这样就会产生越来越有效、准确度越来越高的模型,然后将这些模型汇总到一个集合模型中,同时考虑到它们的权重或参与权。现在,AdaBoost 可以将其应用于新的数据类型,从而对以前未知的数据点进行分类。

弱分类器的 adaboost 模式
本图简要说明了自适应增强的工作原理。资料来源 维基百科

根据方案举例

问题的定义: 在本例中,人工智能模型以模型集合 {h1, h2, h3, h4} 的形式表示,其预测结果则以一组矩形表示。矩形(预测)的大小与其相应的权重(即重要性)成正比。

在本例中,AdaBoost 就是这样工作的: h1 做出一系列预测。h1 的误差(我们所说的误差是指偏离基本事实的预测)被赋予了更大的权重。(以此类推,h3、h4......)。

最后,有 4 个人工智能模型相互纠错。最终的集合分类器称为 "h"。

数学背景

AdaBoost 背后的数学难点主要在于权重的调整,所有数据点的权重初始设置为等于 N。

原样品重量

该值对应的是该数据点被抽取为样本的概率。这就是每次迭代所使用的训练集。

指数损失函数会产生一个凸图,负值会呈指数增长,该函数用于计算误差。

错误函数
y:特征值
e:欧拉数
Cm(xi):预测

它模拟的是预测值与期望目标值之间的差异,因此反映了模型的不准确性。机器学习和提升技术的目标始终是最小化这一函数。在这里,确定的误差可以理解为所有错误预测数据点的样本权重之和,它还有助于确定单个决策树的优先级,即它们对整个模型的影响。误差值介于 0 和 1 之间。

单一分类器的发言权
根据弱学习者易出错的程度,确定其在整个预测中的份额

样本的重新加权也是基于检测到的(不)准确度,但这仅仅是错误预测的结果,而不是复杂计算的结果。对于每个错误分类的样本,AdaBoost 会将其权重乘以欧拉数,欧拉数是分类器的幂级数:新样本权重 = 旧样本权重 x e^(说)。对于每个正确的样本 否定说 用过的。

示例:决策桩一开始的说法则为 0.96,共有 8 个样本,因此 1/N=⅛=0,125 进行加权。样本是 错误的 分类.谁的 新重量 因此为 0.125 x e^(0.96) ≈ 0,33.这就是 比以前高.

对于一个 正确分类 另一方面,负的共同决定权会导致 新重量0,05. 这意味着 AdaBoost 可以从错误中学习,而正确的预测却越来越被忽视。

AdaBoost 变体

由于采用了不同的数学方法,AdaBoost 的不同版本之间存在细微差别。

  • 真正的 AdaBoost 其特点是使用以类别概率为输出的决策树,并应用加权最小二乘误差。
  • 温和的 AdaBoost 是进一步的发展,它使用有限的步长来调节算法的振荡。
  • AdaBoostRegressorAdaBoost.R2、 对原始数据集进行多次回归,并在每次误差计算后进行调整。
  • 对数助推器 不同之处在于,最小化的是对数损失,而不是指数损失。

挑战和解决方案

尽管 AdaBoost 的准确率很高,但它也不是一个理想的模型。由于 AdaBoost 对错误数据点进行了强化训练,因此在处理代表性不足的类别时信心十足,非常适合处理失真数据。不过,这种能力只能达到一定程度。

数据质量低

如果样本分布存在严重的不平衡,即使是真正稳健的自适应提升也会出现过度拟合的趋势。从数学角度看,这是由于所使用的损失函数对负值的指数敏感性导致其容易受到异常值的影响。如果无意义的附加信息影响了预测,"噪声数据 "也会成为一个问题。

解决方法: 特色工程

甚至在执行 AdaBoost 之前,就可以消除所用数据中的许多弱点。特征工程是此类优化的总称,包括旨在尽可能合理地构建类和特征的各种技术。这可以提高机器学习模型的后续性能,但需要高水平的专业知识。

学习能力太弱的学生

如果选择的分类器性能太差,例如忽略了基尼系数,也会出现错误。使用 到类似 弱学习者会降低集合的准确性。这最终取决于每个参与者的不同决定。

解决方法: 修剪

这可以看作是决策树的树篱修剪器。如果决策树的性能低于临界阈值,这项技术就可以减少决策树的薄弱部分,甚至是整棵树。在某些情况下,这最初会降低训练数据的准确性;不过,这也同样适用于可能出现的过度拟合,从而提高随后对未知数据点的预测质量。

应用与开发

原则上,自适应提升可以作为一种集合方法应用于各种机器学习模型,例如 奈何贝叶斯 应用。决策树是最常见的选择,因为即使对于复杂的应用,弱学习者的错误概率在 50% 以下就足够了。自动分类不仅在许多分析流程中发挥作用,在终端应用中也是如此。

人脸识别

早在 2001 年,AdaBoost 就被首次用于人脸识别,当时它刚刚诞生没几年。不过,这只涉及二元判定人脸是否可识别。人脸识别需要更为复杂的技术,但 AdaBoost 至少可以将识别出的人脸呈现给他们。这里重要的是附加的 测试阶段这可能导致进一步迭代,以达到所需的极高精度。

面部检测
现在,识别个人面孔 计算机视觉 供使用。

生物信息学

自适应提升技术还将其在精确分类方面的明显优势应用于跨学科领域,即使是在数据基础扭曲的情况下:例如,确定蛋白质的亚细胞位置就是一项对精确度要求极高的任务。为此,Fan 和 Wang 研究员(2011 年)对算法进行了扩展,加入了多类特征,并将其与之前作为标准计算方法的伪氨基酸组成相结合。结果是:预测准确率大幅提高。

提升和深度学习

人工智能的最新发展主要集中在深度学习上,这是机器学习的一个子领域,其定义是多层神经网络的使用。当然,人们也在尝试进一步改进现有技术。自适应提升技术也是如此。与此同时,决策树的应用也在不断扩大。 卷积神经网络 这样就可以扩展到非常大的数据集。这样就可以扩展到非常大的数据集,从而将两种方法的优势同时用于大数据和 企业人工智能 变得可用。这是因为现在的经济总能反映出人工智能发展的最新状态,甚至在单一的业务流程中也能看到:

智能文件管理合奏

功能强大的集合不仅适用于简单的助推模型。它可以扩展到基于它的高端技术,每种技术都能从 AdaBoost 中受益。证据:Konfuzio。这款用于智能文档管理的软件包含了技术方法截然不同的人工智能技术。只有将这些技术结合起来应用,才能实现全面的 文件理解 直到最后一个细节:

  • 计算机视觉 这项人工智能技术利用机器学习和深度学习,能够自动分析视觉内容。这适用于文档中的图像和布局信息。AdaBoost 可以在以下方面提供帮助 图像分类 帮助。
  • 光学字符识别 作为光学字符识别系统,它负责识别文本。这些文本是否存在,是一个可以通过 AdaBoost 进行优化的预测。
  • 自然语言处理: 提取的文本最好也能被机器理解,以便做出进一步的决定。基于神经网络的 NLP 是实现这一目标的最佳方法。现在还可以使用 AdaBoost 将这些神经网络依次连接起来,以提高准确性。

总结

人工智能如何利用人类现实的基本原则再次变得清晰可见:四只眼睛比两只眼睛看得更清楚。五个分类器做出的决定比一个更好。因此,像自适应提升这样的集合方法几十年来一直发挥着重要作用。尤其有价值的是,它能够从检测到的不准确性中连续学习,并反复将这些误差降到最低。通过这种方式,AdaBoost 可以将决策树等弱学习器转化为强大的模型,甚至有助于人脸识别或生物信息学。

进一步发展的终点尚未到来。深度学习的进步太快,使得自适应提升技术适用于经济领域的大量数据。此外,这些数据的提供和质量对模型的准确性起着重要作用。因此,特征工程和数据科学也是高度相关的影响因素,而这反过来又与文件处理的发展交织在一起。由于这种多因素的影响,未来的自适应增强技术值得一看,并熟悉最新的可能性。 

您想进一步了解聚合分类器和其他人工智能技术的潜力吗?请随时给我们留言。








    "
    "
    Tim Filzinger 的头像

    最新文章