Ajuste de hiperparámetros: una cuestión de configuración

Aunque el aprendizaje automático permite tomar decisiones automatizadas, hay ciertas propiedades de los modelos que no pueden optimizar de forma independiente. Sin embargo, son precisamente estos denominados hiperparámetros los que tienen una influencia significativa en el rendimiento posterior. Por ello, los desarrolladores invierten mucho tiempo y energía en definir desde el principio la configuración ideal. El ajuste de hiperparámetros es, por tanto, uno de los procesos más importantes en la preparación de proyectos de IA. Sin embargo, esto sólo es válido si los datos son correctos.

En este sentido, hay muchas más formas de optimizar la precisión y la calidad de los modelos. Se trata, por ejemplo, de Ingeniería de funciones o Limpieza de datos. El suministro constante de datos de alta calidad mediante correcciones humanas (HITL) es un concepto de uso frecuente. En comparación, el ajuste de hiperparámetros se caracteriza por su aplicación única. Por lo tanto, las decisiones que se toman en el proceso tienen una importancia especial.

Definición: El ajuste de hiperparámetros describe la búsqueda de la adaptación óptima de un modelo de aprendizaje automático. antes de la formación.

¿Qué hiperparámetros hay?

Cuanto más compleja es una máquina, más tornillos de ajuste influyen en su funcionamiento. Con Aprendizaje automático no es diferente. Se presta especial atención a los factores que dejan poco margen para reajustes posteriores. No en vano estos parámetros llevan el prefijo griego "hiper": su importancia es acerca de todas las demás. La única excepción es la selección central del tipo de modelo, que debe coincidir con el proyecto previsto y determina en qué propiedades se puede influir en absoluto.

Los siguientes hiperparámetros pueden desempeñar un papel importante para casi cualquier modelo de aprendizaje automático:

Tasa de aprendizaje

Un concepto central del aprendizaje automático es la repetición iterativa de predicciones de entrenamiento que dan lugar a una adaptación (neuronal) del modelo. Normalmente, en cada caso se realiza una comparación con un valor objetivo definido al que debe aproximarse la predicción. En última instancia, esto conduce a la minimización de una función de pérdida. La tasa de aprendizaje especifica el tamaño del paso de estas optimizaciones y, por tanto, influye en la velocidad y la eficacia del entrenamiento.

Tamaño del lote

Este hiperparámetro describe el número de muestras o muestras aleatorias que se recorren durante el entrenamiento. Se trata de subconjuntos predefinidos, denominados lotes, a los que se superpone el descenso de gradiente por lotes. Este es el caso cuando un algoritmo de aprendizaje itera sobre todo el conjunto de datos. Si el lote sólo comprende una única muestra, se habla de descenso de gradiente estocástico. Los tamaños de lote intermedios se denominan descenso por gradiente en mini lotes y suelen constar de 32, 64 o 128 muestras.

Épocas

Independientemente del tamaño del lote, la frecuencia con la que se presenta todo el conjunto de datos al modelo de aprendizaje automático es importante. También en este caso hay que encontrar un cuidadoso equilibrio entre la adaptación y la generalizabilidad a la hora de afinar. Un número de épocas de varios cientos a mil está dentro del rango normal. Los valores demasiado altos sólo aumentan el rendimiento durante el entrenamiento a expensas de un posible exceso de adaptación. Los diagramas de líneas o curvas de aprendizaje, que visualizan el tiempo y la adaptación del modelo, ayudan a sopesarlo.

Curva de aprendizaje automático de un modelo de red neuronal
Curva general de aprendizaje de una red neuronal. Fuente: Curvas de aprendizaje en el aprendizaje automático

Los modelos más potentes actualmente disponibles se basan en el aprendizaje profundo y las redes neuronales. Además de los hiperparámetros mencionados anteriormente, aquí también son relevantes otros hiperparámetros seleccionados:

Número de capas y neuronas

El funcionamiento de las redes neuronales depende en gran medida de su organización estructural, lo que se denomina arquitectura. Aunque en realidad sólo sean funciones no lineales complejas, pueden visualizarse como una red espacial. Esto se basa en la composición de capas de neuronas, que permiten cálculos más complejos con un número creciente y una red más densa. En el ámbito de la Procesamiento del lenguaje natural Esto lleva, por ejemplo, a registrar contextos más largos dentro del lenguaje natural.

Regularización

Se trata de una serie de procedimientos que también influyen en la complejidad de las redes neuronales. Sin embargo, el objetivo es reducir temporalmente su complejidad para evitar el sobreajuste a los datos de entrenamiento. Esto se consigue, por ejemplo Regularización L1 o L2que reduce los pesos de las neuronas ajustando la función de pérdida. Con la Abandono En cambio, la reducción de la complejidad se consigue excluyendo aleatoriamente neuronas individuales. Aunque la regularización reviste especial importancia para las redes neuronales, también puede aplicarse a otros modelos en determinadas circunstancias.

Además de estas categorías más generales, también pueden asignarse hiperparámetros muy específicos a algoritmos concretos:

¿Qué técnicas se utilizan?

Existen básicamente dos procedimientos diferentes que pueden utilizarse para el ajuste de hiperparámetros: Con Ajuste manual se llevan a cabo varios experimentos teniendo en cuenta distintos ajustes de los hiperparámetros. Una comparación de los respectivos resultados e informes de rendimiento conduce en última instancia a la selección de los ajustes. Un ejemplo típico es la búsqueda manual, en la que los científicos de datos seleccionan y ajustan los valores de forma intuitiva o basándose en la experiencia.

En Ajuste automático en cambio, se caracteriza por el uso de varios algoritmos diseñados para calcular una combinación óptima de hiperparámetros. Sin embargo, al menos la preselección también se realiza manualmente. El grado de controlabilidad es algo menor debido a los algoritmos, pero esto también se aplica al tiempo y al esfuerzo necesarios. Las siguientes técnicas son especialmente adecuadas para ello:

Búsqueda aleatoria

En El nombre lo dice todo. Se realiza una selección aleatoria de valores a partir de una distribución estadística predefinida para los hiperparámetros individuales. Las configuraciones derivadas se utilizan para entrenar el modelo, que también se somete a una evaluación utilizando diversas métricas de evaluación. Esto constituye la base de los ajustes continuos. Debido a la selección aleatoria, el proceso es menos intensivo desde el punto de vista informático que otros métodos. No obstante, los resultados son impresionantes.

Búsqueda en la cuadrícula

Para probar el mayor número posible de combinaciones de distintos valores de los parámetros, conviene visualizarlos en una cuadrícula. En ella se busca sistemáticamente hasta identificar los ajustes de la calidad deseada. Como es posible procesar una cuadrícula predefinida hasta una cuadrícula completamente exhaustiva, se pueden generar ajustes especialmente potentes. Sin embargo, esto también lleva asociada la correspondiente intensidad de cálculo.

Optimización bayesiana

Esta técnica se basa en el teorema de Bayes, que también se utiliza en Naive-Bayes-clasificadores. El supuesto básico es inicialmente una función aleatoria que debe aproximarse continuamente al óptimo, es decir, a la configuración ideal de hiperparámetros. Una función de adquisición, que pondera entre exploración y utilización del espacio de búsqueda, ayuda a seleccionar las configuraciones adecuadas. Las evaluaciones iterativas del rendimiento funcional producen datos que se utilizan para adaptar el modelo de probabilidad.

Optimización de la evolución

Los llamados algoritmos evolutivos se inspiran en los principios darwinianos y, por tanto, son especialmente adecuados para los problemas de optimización. Cuando se aplican al ajuste de hiperparámetros, los programas forman poblaciones de posibles ajustes. Mediante mutación, combinación y selección, se crea entonces un conjunto de hiperparámetros gradualmente mejorado. Las configuraciones que no se correspondan con las definidas previamente Fitness se ordenan sucesivamente.

Evaluar el rendimiento con validación cruzada

En el ajuste de hiperparámetros, la cuestión más compleja es la decisión a favor de una determinada adaptación del modelo. Además de las técnicas descritas anteriormente, parte del proceso consiste en comparar distintas configuraciones para evaluar el rendimiento del modelo con datos no observados. Una adaptación excesiva repercutiría negativamente en la precisión y flexibilidad posteriores. Para evitarlo, se suele utilizar la técnica de remuestreo de validación cruzada. El conjunto de datos utilizado se transforma de forma que se aproxime a los nuevos tipos de datos. 

Normalmente, esto se hace dividiendo en k (número) subconjuntos diferentes (k pliegues). El modelo se entrena sucesivamente en cada pliegue y se compara con un conjunto distinto para su validación. En última instancia, el rendimiento se evalúa utilizando valores medios iterativos de métricas como el Puntuación F1. El proceso puede repetirse para cualquier número de ajustes de hiperparámetros. Solo cuando los científicos de datos y los expertos en aprendizaje automático están satisfechos con los resultados, el modelo está listo para la fase de entrenamiento real con un conjunto de datos mayor.

valores de pliegue en la validación cruzada
Distribución de los conjuntos de entrenamiento y validación. k=5 o 10 pliegues se consideran comunes. Fuente: Validación cruzada

Desafíos

El ajuste de hiperparámetros es un proceso extremadamente complejo que requiere algoritmos especializados y un alto grado de experiencia en su selección y aplicación. Incluso los científicos de datos experimentados se enfrentan a menudo a retos importantes. Una vez más, esto incluye el típico problema central del aprendizaje automático, a saber, el equilibrio entre adaptación y generalizabilidad.

retos del ajuste de hiperparámetros antes del entrenamiento

Sobreajuste y sobreingeniería

Con todas las innumerables opciones de personalización, puede ser fácil pasarse con el ajuste. Esto inhibe la generalizabilidad de dos maneras: por un lado, demasiadas iteraciones pueden dar lugar a una adaptación excesiva a un conjunto de datos pequeño o incluso a un pliegue. Por otro, unos ajustes demasiado diferenciados también conducen a una menor flexibilidad en la aplicación posterior. Por definición, no es posible que el propio modelo supere de forma independiente los hiperparámetros obstructivos.

Área de búsqueda y recursos

Para muchas de las técnicas utilizadas, los cálculos requieren una gran potencia de cálculo. Ésta aumenta linealmente con el tamaño del espacio de búsqueda analizado, lo que a su vez determina la calidad de los resultados. Esta es la razón por la que la búsqueda en cuadrícula, por ejemplo, con su amplia visualización en cuadrícula, es una técnica muy eficaz pero también cara. La búsqueda manual o aleatoria, en cambio, tiene prácticamente la mejor "relación calidad-precio".

Dependencias

Muchos hiperparámetros no pueden considerarse y optimizarse de forma completamente diferenciada. En su lugar, suele haber una influencia mutua cuando se intenta ajustar un único parámetro. Estas dependencias se han vuelto más complejas, especialmente en lo que respecta a las redes neuronales. Por ejemplo, las neuronas y las capas se ven influidas por la regularización, especialmente por el abandono, a medida que la red se reduce espacialmente. Esto pone de manifiesto una vez más la necesidad de un alto nivel de conocimientos, experiencia e intuición.

¿Qué ventajas tiene el ajuste de hiperparámetros?

La elección y el ajuste de los hiperparámetros adecuados tienen sin duda una influencia significativa en el rendimiento esperado del modelo. Esto puede verse, por ejemplo, en un Estudiar por los investigadores saudíes Hoque y Aljamaan (2021): Con la ayuda de un Pruebas de Wilcoxon compararon la precisión predictiva de los modelos de aprendizaje automático con respecto a los precios de las acciones, en parte con y en parte sin ajuste. El resultado: previsiones significativamente más precisas tras el ajuste previo de los hiperparámetros. Pero: la base era un conjunto de datos de alta calidad que se analizaron con el Técnica de la ventana corredera se personalizó ampliamente.

Otro Estudiar (Weegar et al. 2016) subraya la importancia de este proceso. Incluso la modificación más sencilla de las características del conjunto de datos condujo al rendimiento superior de modelos supuestamente mejores. En última instancia, ni siquiera el ajuste de hiperparámetros más elaborado supera la importancia de unos datos estructurados de forma sensata y adecuada. Lo que cuenta es el contenido informativo y las correlaciones que un modelo de aprendizaje automático debe reconocer durante el entrenamiento. El beneficio final sólo surge en combinación.

Aplicación de modelos optimizados

Dado que el ajuste de hiperparámetros es un concepto fundamental del aprendizaje automático, no hay un único caso de uso que deba destacarse. Cada aplicación individual de IA requiere la implementación de modelos funcionales y afinados. En el Mercado Konfuzio hay un gran número de ellos, ya afinados, formados y listos para su uso inmediato. Las aplicaciones específicas del sector van desde TNE médica acerca de Exposiciones inmobiliarias hasta Liquidaciones de valores.

Nuestros expertos se han ocupado de los hiperparámetros adecuados.

Conclusión

Realizar los ajustes adecuados es la base indispensable de todo proyecto tecnológico. Cuando se trata de aprendizaje automático, este proceso se conoce como ajuste de hiperparámetros. La atención se centra en aquellas propiedades que ya no pueden modificarse en el transcurso de un proceso de aprendizaje. Se trata, por ejemplo, de la tasa de aprendizaje, el número de neuronas o el tamaño del lote. Además del ajuste manual, las técnicas típicas incluyen la búsqueda en cuadrícula o la optimización bayesiana.

Independientemente del método específico utilizado, siempre es un requisito previo un alto nivel de experiencia y conocimientos por parte de los científicos de datos. Esto también repercute en la calidad de la base de datos utilizada en el entrenamiento, que influye mucho en el rendimiento alcanzable. El uso de plataformas de IA personalizadas, como Konfuzio, resulta especialmente útil cuando no se dispone de estos recursos.

¿Quiere seguir optimizando sus propios modelos de IA? No dude en enviarnos un mensaje. Nuestros expertos estarán encantados de atenderle.








    "
    "
    Avatar de Tim Filzinger

    Últimos artículos