Backpropagation: la clave para entrenar redes neuronales

Para mejorar la precisión de las redes neuronales artificiales, la retropropagación es una de las técnicas de aprendizaje supervisado más importantes. Se basa matemáticamente en la comparación de los valores de salida deseados con la salida real y devuelve a la red el error detectado desde la capa de salida. La optimización posterior de los pesos neuronales representa la quintaesencia del aprendizaje automático. Aquí encontrará todo lo que necesita saber sobre este proceso.

¿Qué es la retropropagación?

La retropropagación, también llamada retropropagación de errores, es un mecanismo de aprendizaje basado en las matemáticas para entrenar redes neuronales multicapa. Se remonta a la Regla Delta que describe la comparación de un resultado observado con un resultado deseado (Delta = ai(deseado) - ai(observado)). En un método de gradiente, se suele calcular el error cuadrático medio y se utiliza para su ponderación más precisa cuando se realimenta en la red. Además de las capas de entrada y salida, en la retropropagación también se utilizan capas ocultas. El requisito previo básico es que los valores objetivo deseados se conozcan en todo momento. El procedimiento es una parte importante del aprendizaje automático y contribuye de forma decisiva al ajuste fino de los modelos de IA.

El principio básico del planteamiento ya se desarrolló en los años sesenta. En aquella época, sin embargo, seguía siendo incompleto, ineficaz y técnicamente poco aplicable. En la década de 1970 apareció una variante más moderna, pero tampoco tuvo mucho uso práctico y volvió a caer en el olvido durante algún tiempo. En 1986, Rumelhart, Hinton y Williams demostraron su aplicabilidad a las redes neuronales, lo que supuso un gran avance en la psicología cognitiva. La retropropagación no modela el mecanismo de aprendizaje de las neuronas biológicas, pero conduce a resultados igualmente exactos desde el punto de vista matemático. Todavía no está exactamente claro desde el punto de vista bioquímico cómo la información sobre los valores objetivo en el neocórtex vuelve a la hendidura sináptica de la capa neuronal anterior. Sin embargo, se considera seguro que esto es necesario para el aprendizaje y encuentra una analogía técnica en la retropropagación, mediante la cual se puede aumentar la precisión de las redes artificiales.

hendidura sináptica

Clasificación en el proceso de formación

La retropropagación describe sólo uno -aunque muy importante- de los procesos necesarios para entrenar redes neuronales artificiales. Sin la totalidad de esos procesos, no es posible producir una Modelo de IA a desarrollar. El procedimiento es de naturaleza predominantemente matemática, pero antes debe encontrar aquí una explicación verbal: Para entrenar una red neuronal, hay que estructurarla adecuadamente para el procedimiento previsto. Básicamente, se puede imaginar una agrupación de nodos de entrada y salida interconectados (neuronas) que puede describirse como una función no lineal y recursiva.

El objetivo es ponderar las neuronas individuales de forma que la red ofrezca los resultados más precisos posibles. Para ello se necesita una función de activación, una función de hipótesis y una función de error. Una función de optimización ayuda a determinar los cambios en los pesos al final. A grandes rasgos, la red puede dividirse en capa de entrada, capas ocultas y capa de salida. El proceso de entrenamiento suele seguir los siguientes pasos:

  • Inicialización en la capa de entrada
  • Propagación hacia delante
  • Retropropagación
  • Iteración

El cálculo de los valores de salida es la tarea de la propagación hacia delante y es aproximadamente lo contrario de la retropropagación. Las salidas de las neuronas individuales se construyen unas sobre otras y forman nuevos valores de entrada para las neuronas siguientes. Finalmente, los valores de salida de la red pueden determinarse en la capa de salida y utilizarse para el cálculo del error. De este modo, se cumplen todos los requisitos de la retropropagación.

red de retropropagación

¿Cómo funciona la retropropagación?

Contrariamente a lo que sugiere el significado alemán de la palabra, la retropropagación suele incluir no sólo la retropropagación de errores, sino también su cálculo en la capa de salida. Los valores objetivo definidos con precisión, que se comparan con los resultados de la propagación hacia delante, son decisivos. La función de error utilizada suele incluir el error cuadrático medio, pero también puede utilizar la entropía cruzada o el error porcentual absoluto medio.

Los valores resultantes corresponden a la inexactitud de toda la red, ya que la salida utilizada se calculó sobre la base de todas las neuronas contenidas. Ahora es necesario minimizar el error detectado, realimentarlo a la red y realizar un cambio en los pesos y valores umbral (bias) en función del mismo mediante la función de optimización. De este modo, la red ya ofrece resultados más precisos en la siguiente iteración. El proceso puede repetirse hasta alcanzar la precisión deseada. Los pasos más importantes de la retropropagación son, por tanto:

  • Cálculo de errores
  • Minimización de errores
  • Ajuste del peso
  • Modelización de la precisión de las predicciones

Aquí encontrará una explicación matemática detallada del procedimiento:

YouTube

Al cargar el vídeo, aceptas la política de privacidad de YouTube.
Más información

Cargar vídeo

Dos tipos de retropropagación

Los detalles del procedimiento de aprendizaje pueden variar en función de la naturaleza de la red y de las tareas que vaya a realizar. Una categorización típica es:

1. retropropagación estática

Esta variante se utiliza cuando el modelo proporciona una salida estática para una entrada estática. Un campo de aplicación habitual es la inteligencia artificial. Reconocimiento óptico de caracteres (OCR). Al entrenar la red correspondiente, la entrada consistiría en caracteres ópticos, por ejemplo manuscritos, y los valores objetivo estarían vinculados a caracteres textuales coincidentes. A través de la retroalimentación de errores, la red aprende y así aumenta continuamente la precisión del reconocimiento de textos.

2. retropropagación recurrente

Aquí, las activaciones se transmiten a través de la red hasta que alcanzan un valor fijo. Por tanto, no son estáticas desde el principio como en el procedimiento descrito anteriormente. Otra diferencia es que no es posible una asignación directa durante la inicialización en la capa de entrada.

Ejemplos prácticos de aplicación

ChatGPT

Este modelo de inteligencia artificial, basado en la arquitectura GPT, ya debería resultar familiar a todo el mundo. Se ha desarrollado para responder a las entradas con respuestas lo más humanas posible y se ha sometido a un preentrenamiento con una gran cantidad de texto. Para tareas específicas, ChatGPT puede ajustarse con precisión, y la retropropagación desempeña un papel crucial. Siguiendo el procedimiento descrito, la función de error se minimiza y se utiliza para optimizar los pesos de la red neuronal. De este modo, la herramienta ofrece resultados cada vez más precisos.

Reconocimiento de imágenes

Se trata de una subespecie de Visión por ordenadorque se utiliza no sólo para reconocer, sino también para interpretar la información de la imagen para la posterior toma de decisiones. Las redes neuronales clásicas, que pueden entrenarse con la ayuda de la retropropagación, se utilizan predominantemente en este caso. Este enfoque ofrece un valor añadido especial, ya que permite realizar fácilmente un gran número de iteraciones, lo que es absolutamente necesario para realizar un ajuste fino que permita una interpretación precisa de la imagen.

LayoutLM

Este modelo lingüístico preformado se utiliza para analizar documentos complejos. Al hacerlo, combina información tanto de texto como de diseño, por lo que es una herramienta muy útil para el Comprensión de documentos de facturas, formularios y recibos. La retropropagación se utiliza para ajustar el modelo a un tipo concreto de documento. De este modo, en última instancia puede utilizarse de forma muy específica según las necesidades individuales, lo que resume el principal objetivo del ajuste fino mediante retropropagación.

"
"
Avatar de Tim Filzinger

Últimos artículos