反向传播:训练神经网络的关键

为了提高人工神经网络的准确性,反向传播是最重要的监督学习技术之一。它在数学上基于预期输出值与实际输出值的比较,并将检测到的误差从输出层反馈到网络中。随后的神经权重优化是机器学习的精髓。您可以在这里找到有关这一过程的所有信息。

什么是反推法?

反向传播,也叫误差反向传播,是一种基于数学的学习机制,用于训练多层神经网络。它可以追溯到 三角洲规则 它描述了观察到的输出与期望输出的比较(三角洲 = ai(希望) - ai(观察到的))。就梯度法而言,通常会计算出均方误差,并在反馈到网络时用于其更精确的加权。除了输入层和输出层,隐藏层也被用于反向传播。基本的前提条件是所需的目标值在任何时候都是已知的。该程序是机器学习的一个重要部分,对人工智能模型的微调做出了决定性的贡献。

该方法的基本原则在20世纪60年代就已经形成。然而,在那个时候,它仍然是不完整的,低效的,技术上几乎不适用。在20世纪70年代,它的一个更现代的变体首次出现,但它也没有发现什么实际用途,并在一段时间内被再次遗忘。1986年,Rumelhart、Hinton和Williams证明了它对神经网络的适用性,这标志着认知心理学的一个突破。逆传播并不模拟生物神经元的学习机制,但却导致了同样数学上精确的结果。从生物化学的角度来说,仍然不完全清楚新皮质中关于目标值的信息是如何回到前一个神经元层的突触裂隙中的。然而,可以肯定的是,这对学习是必要的,并在反向传播中找到了技术上的相似性,通过它可以提高人工网络的准确性。

突触裂隙

训练过程中的分类

逆向传播只是描述了训练人工神经网络所必需的过程之一,尽管非常重要。如果没有这些过程的整体性,就不可能产生一个可靠的 AI模型 来发展。该程序主要是数学性质的,但应首先在这里找到口头解释:为了训练神经网络,必须根据计划的程序对其进行适当的结构设计。基本上,我们可以想象一组相互连接的输入和输出节点(神经元),它们可以被描述为一个非线性递归函数。

其目的是对单个神经元进行加权,使网络尽可能提供最准确的结果。这需要一个激活函数、一个假设函数和一个误差函数。优化函数有助于确定最终权重的变化。网络大致可分为输入层、隐藏层和输出层。训练过程通常按以下步骤进行:

  • 输入层的初始化
  • 正向传播
  • 反向传播
  • 迭代

输出值的计算是前向传播的任务,与反向传播大致相反。各个神经元的输出相互建立,并为后面的神经元形成新的输入值。最后,网络的输出值可以在输出层确定并用于误差计算。因此,反向传播的所有先决条件都得到满足。

逆传播网络

反向传播是如何工作的?

与德语中的意思相反,反向传播通常不仅包括误差的反向传播,还包括输出层的误差计算。将精确定义的目标值与前向传播的结果进行比较具有决定性意义。使用的误差函数通常包括均方误差,但也可以使用交叉熵或平均绝对百分比误差。

由于所使用的输出是根据包含的所有神经元计算得出的,因此得出的值与整个网络的不准确度相对应。现在有必要将检测到的误差最小化,将其反馈到网络中,并通过优化功能对权重和阈值(偏置)进行修改。这样,网络就能在下一次迭代中提供更精确的结果。这一过程可以重复进行,直到达到所需的精确度。因此,反向传播最重要的步骤是

  • 误差计算
  • 误差最小化
  • 重量调整
  • 预测精度的建模

关于这个程序的详细数学解释可以在这里找到:

录像带

通过加载视频,你接受YouTube的隐私政策。
了解更多

加载视频

两种类型的反推法

学习程序的细节可能有所不同,这取决于网络的性质和它要执行的任务。一个典型的分类是:

1.静态反向传播

当模型为静态输入提供一个静态输出时,就会使用这个变体。一个常见的应用领域是基于人工智能的 光学字符识别(OCR).当训练一个相应的网络时,输入将由光学,例如手写的字符组成,目标值将与匹配的基于文本的字符相联系。通过错误反馈,网络进行学习,从而不断提高文本识别的准确性。

2. 递归反推法

在这里,激活通过网络传输,直到它们达到一个固定值。因此,它们不是像前面描述的程序那样从一开始就是静态的。另一个区别是,在输入层的初始化过程中,不可能进行直接分配。

实际应用案例

聊天室GPT

这个基于GPT架构的人工智能模型,现在大家应该已经很熟悉了。它的开发是为了尽可能对输入做出最像人类的反应,并经过了大量文本的预训练。对于特定的任务,ChatGPT可以进行微调,其中反向传播起到了关键作用。根据上述程序,误差函数被最小化并用于优化神经网络的权重。通过这种方式,该工具可以提供越来越精确的结果。

图像识别

这是一个亚种的 计算机视觉它不仅用于识别,而且还用于解释图像信息,以便进一步决策。这里主要使用经典的神经网络,它可以在反向传播的帮助下进行训练。这种方法在这里提供了特别的附加价值,因为可以很容易地进行大量的迭代,这对于精确的图像解释的微调是绝对必要的。

铺设LM

这种预先训练的语言模型被用来分析复杂的文件。在这样做的时候,它结合了文本和布局信息,因此是一个非常有帮助的工具,用于 文件理解 的发票、表格和收据。反向传播被用来为特定类型的文件微调模型。通过这种方式,它最终可以根据个人需求非常具体地使用--这总结了使用反向传播进行微调的主要目标。

"
"
Tim Filzinger 的头像

最新文章