La rétropropagation : la clé de l'entraînement des réseaux neuronaux

Afin d'améliorer la précision des réseaux neuronaux artificiels, la rétropropagation est l'une des principales méthodes d'apprentissage supervisé. Il se base mathématiquement sur la comparaison des valeurs de sortie souhaitées avec la sortie réelle et réintroduit l'erreur constatée de la couche de sortie dans le réseau. L'optimisation des poids neuronaux qui s'ensuit constitue la quintessence de l'apprentissage automatique. Pour tout savoir sur ce processus, cliquez ici.

Qu'est-ce que la backpropagation ?

La rétropropagation, également appelée retour d'erreur, est un mécanisme d'apprentissage mathématiquement fondé pour l'entraînement de réseaux neuronaux multicouches. Il est issu de la Règle du delta qui décrit la comparaison entre un résultat observé et un résultat souhaité (Delta = ai(souhaité) - ai(observé)). Dans le sens d'une procédure de gradient, l'erreur quadratique moyenne est généralement calculée et utilisée lors de la réinjection dans le réseau pour une pondération plus précise de celui-ci. Outre les couches d'entrée et de sortie, la rétropropagation utilise également des couches cachées (hidden layers). La condition de base est que les valeurs cibles souhaitées soient connues à tout moment. Ce procédé est une partie importante de l'apprentissage automatique et contribue de manière décisive au réglage fin des modèles d'IA.

Le principe de base de la démarche a été développé dès les années 1960. A cette époque, il était toutefois encore incomplet, inefficace et techniquement peu applicable. Dans les années 1970, une variante plus moderne est apparue, mais elle n'a guère trouvé d'utilité pratique et est retombée dans l'oubli pendant un certain temps. En 1986, Rumelhart, Hinton et Williams ont montré qu'elle pouvait être appliquée aux réseaux neuronaux, ce qui a constitué une percée en psychologie cognitive. La rétropropagation ne modélise certes pas le mécanisme d'apprentissage des neurones biologiques, mais elle donne des résultats tout aussi mathématiquement exacts. On ne sait toujours pas exactement, d'un point de vue biochimique, comment, dans le néocortex, les informations sur les valeurs cibles parviennent à la fente synaptique de la couche neuronale précédente. Le fait que cela soit nécessaire pour l'apprentissage est toutefois considéré comme certain et trouve dans la rétropropagation une analogie technique qui permet d'augmenter la précision des réseaux artificiels.

synaptic cleft

Situer dans le processus de formation

La rétropropagation ne décrit qu'un seul des processus - certes très important - nécessaires à l'entraînement des réseaux neuronaux artificiels. Sans l'ensemble de ces processus, il n'est pas possible d'obtenir un résultat fiable. Modèle d'IA de développer une procédure. La procédure est principalement de nature mathématique, mais doit d'abord être expliquée verbalement ici : Pour entraîner un réseau neuronal, il faut que sa structure soit adaptée à la procédure prévue. En principe, il s'agit d'un regroupement de nœuds d'entrée et de sortie (neurones) reliés entre eux, qui peut être décrit comme une fonction non linéaire et récursive.

L'objectif est de pondérer les différents neurones de manière à ce que le réseau fournisse des résultats aussi précis que possible. Pour ce faire, une fonction d'activation, une fonction d'hypothèse et une fonction d'erreur sont nécessaires. Une fonction d'optimisation permet de déterminer les modifications des poids. En gros, le réseau peut être divisé en couche d'entrée (input layer), couches cachées (hidden layers) et couche de sortie (output layer). Le processus d'apprentissage se déroule typiquement selon les étapes suivantes :

  • Initialisation au niveau de la couche d'entrée
  • Propagation vers l'avant
  • Propagation de la cuisson
  • Itération

Le calcul des valeurs de sortie est la tâche de la propagation vers l'avant (Forward Propagation) et se comporte à peu près de manière opposée à la propagation vers l'arrière (Back Propagation). Les sorties des différents neurones se basent les unes sur les autres et forment à chaque fois de nouvelles valeurs d'entrée pour les neurones suivants. Enfin, les valeurs de sortie du réseau peuvent être déterminées au niveau de la couche de sortie et utilisées pour le calcul des erreurs. Toutes les conditions sont ainsi réunies pour une rétropropagation.

réseau de rétropropagation

Comment fonctionne la backpropagation ?

Contrairement à ce que le sens du mot allemand laisse supposer, la rétropropagation ne comprend généralement pas seulement le renvoi des erreurs, mais aussi leur calcul au niveau de la couche de sortie. Les valeurs cibles définies avec précision et comparées aux résultats de la propagation vers l'avant sont décisives. La fonction d'erreur utilisée comprend typiquement la Mean Squared Error, c'est-à-dire la différence moyenne au carré, mais peut également utiliser l'entropie croisée ou l'erreur moyenne absolue en pourcentage.

Les valeurs qui en résultent correspondent à l'imprécision de l'ensemble du réseau, car la sortie utilisée a été calculée sur la base de tous les neurones qu'il contient. Il s'agit maintenant de minimiser l'erreur constatée, de la réintroduire dans le réseau et de procéder à une modification des poids et des valeurs de seuil (biais) sur cette base, à l'aide de la fonction d'optimisation. Le réseau fournit ainsi des résultats plus précis dès l'itération suivante. Le processus peut être répété autant de fois que nécessaire jusqu'à ce que la précision souhaitée soit atteinte. Les principales étapes de la rétropropagation sont donc les suivantes

  • Calcul des erreurs
  • Minimisation des erreurs
  • Ajustement du poids
  • Modélisation de la précision des prédictions

Une explication mathématique détaillée de la procédure se trouve ici :

YouTube

En chargeant la vidéo, vous acceptez la déclaration de confidentialité de YouTube.
En savoir plus

Charger la vidéo

Deux types de backpropagation

Les détails de la procédure d'apprentissage peuvent varier en fonction de la nature du réseau et des tâches qu'il doit accomplir. Une catégorisation typique est

1. propagation statique de la cuisson

Cette variante est utilisée lorsque le modèle fournit une sortie statique pour une entrée statique. Un domaine d'application courant est la recherche basée sur l'IA. Reconnaissance optique des caractères (OCR). Lors de l'entraînement d'un réseau correspondant, l'entrée serait constituée de caractères optiques, par exemple manuscrits, et les valeurs cibles seraient associées à des caractères textuels correspondants. Grâce au retour d'erreurs, le réseau apprend et augmente ainsi continuellement la précision de la reconnaissance de texte.

2. backpropagation récurrente

Dans ce cas, les activations sont transmises à travers le réseau jusqu'à ce qu'elles atteignent une valeur fixe. Elles ne sont donc pas statiques dès le départ comme dans la méthode décrite précédemment. Une autre différence réside dans le fait qu'il n'est pas possible ici d'effectuer une affectation directe lors de l'initialisation au niveau de la couche d'entrée.

Exemples d'applications pratiques

ChatGPT

Ce modèle d'IA, basé sur l'architecture GPT, est désormais connu de tous. Il a été développé pour réagir à des entrées avec des réponses aussi proches que possible de celles des humains et a subi un pré-entraînement avec une grande quantité de texte. Pour des tâches spéciales, ChatGPT peut être soumis à un réglage fin, dans lequel la rétropropagation joue un rôle décisif. Conformément à la procédure décrite ci-dessus, la fonction d'erreur est minimisée et utilisée pour optimiser les poids du réseau neuronal. L'outil fournit ainsi des résultats de plus en plus précis.

Reconnaissance d'image

Il s'agit d'une sous-espèce de Vision par ordinateurLes neurones sont utilisés non seulement pour la reconnaissance, mais aussi pour l'interprétation d'informations d'images en vue d'une prise de décision ultérieure. Pour ce faire, on utilise principalement des réseaux neuronaux classiques qui peuvent être entraînés à l'aide de la rétropropagation. Cette approche offre ici une plus-value particulière, car elle permet d'effectuer facilement un très grand nombre d'itérations, ce qui est absolument nécessaire pour le réglage fin en vue d'une interprétation précise de l'image.

Mise en pageLM

Ce modèle linguistique pré-entraîné est utilisé pour analyser des documents à la structure complexe. Il combine des informations sur le texte et la mise en page et constitue ainsi un outil très utile pour l'analyse des textes. Compréhension du document de factures, de formulaires et de reçus. La rétropropagation est utilisée pour affiner le modèle pour un type de document donné. Ainsi, il peut être utilisé de manière très spécifique en fonction des besoins individuels - ce qui résume l'objectif principal d'un réglage fin à l'aide de la rétroprojection.

"
"
Avatar de Tim Filzinger

Derniers articles