regresión logística

Regresión logística: explicación sencilla con pocas matemáticas

Tim Filzinger

Cuando se trata de modelos complejos de aprendizaje automático, se puede llegar rápidamente al límite de la interpretabilidad. En tales casos, no es fácil explicar por qué se tomó una decisión o se hizo una predicción concreta. La regresión logística es una alternativa sencilla que puede utilizarse para investigar estadísticamente las posibles relaciones entre variables. Esto la convierte en una herramienta útil para interpretar las decisiones de la IA, así como para hacer predicciones independientes.

¿Qué es la regresión logística?

La regresión logística es una técnica de análisis estadístico que trata la relación entre una o varias variables independientes y una variable binaria dependiente. Por lo tanto, es adecuada para determinar las probabilidades de los posibles resultados de un evento. Puede tratarse, por ejemplo, de una simple decisión sí/no o de la ocurrencia o no de un determinado escenario. Este tipo de variables también se denominan "dicotómicas". Las variables independientes -y, por tanto, las variables que influyen en la relación analizada- tienen una escala numérica o continua. Por lo tanto, las propiedades categóricas deben convertirse en binarias Variables ficticias pueden descomponerse. Encontrará una explicación más detallada de los distintos tipos de características en este Inmersión profunda.

La regresión logística es un caso especial del análisis de regresión que también examina otros tipos de variables. Además, existen extensiones ordinales y multinomiales que permiten una mayor flexibilidad en términos de predicción. En concreto, permiten predecir clasificaciones o categorías múltiples. Sin embargo, por regla general, la regresión logística se refiere a la investigación de una variable objetivo binaria. El término genérico para este tipo de procedimientos también es Modelos Logit. Utilizan una función logit correspondiente y recurren al concepto de las denominadas probabilidades. Éstas describen la relación entre la probabilidad de que se produzca un suceso y la contraprobabilidad. Otra base es la estimación de máxima verosimilitud (MLE), que se utiliza para estimar las probabilidades adecuadas.

Ejemplos de posibles exámenes

  • ¿Cuál es la probabilidad de que una determinada decisión de compra dependa de compras anteriores?
  • ¿Puede un código de descuento influir positivamente en la decisión?
  • Se hace visible la inminencia de una adquisición de empresas cotizadas. ¿Subirá o bajará el precio de las acciones de la empresa compradora?
  • ¿Una persona con determinadas características es solvente o no?
  • ¿Lloverá mañana en Nueva York?
probabilidad de lluvia
La probabilidad de lluvia puede modelizarse mediante regresión logística.

Aunque algunas de estas preguntas binarias podrían resolverse igualmente con otros métodos, permiten comprender la situación de la modelización de probabilidades binarias. La particularidad de la regresión logística es que, además de la respuesta sí o no, también tiene en cuenta la confianza de esta respuesta. Decisión examinado.

¿Cómo funciona la regresión logística?

En principio, la regresión logística examina el efecto de la variable independiente sobre la variable dependiente evaluando datos históricos. Al igual que la regresión lineal, parte de una relación lineal, pero el valor objetivo de la variable dependiente se transforma en un valor entre 0 y 1. Esto lo hace la función logit utilizada, que genera así la probabilidad correspondiente del suceso. De ello se encarga la función logit utilizada, que genera así la probabilidad correspondiente del suceso. La curva de función resultante sirve para trazar la base de datos existente que se utiliza para las predicciones.

Función logit de la regresión logística
La función logit de la regresión logística
f(x) corresponde a la variable dependiente o a su probabilidad, x a la variable independiente
e = número euleriano, base de un logaritmo natural

Gráficamente, tiene este aspecto:

gráfico de regresión logística
Curva de función de la regresión logística

En la típica curva en forma de s de la regresión logística, se hace visible cómo se obtienen valores entre 0 y 1 independientemente de la entrada. La gran ventaja aquí es la interpretabilidad y la posible estimación de una probabilidad de error. Por ejemplo, si el valor de f(x) supone 0,51, el suceso 1 es más probable, pero una ligera desviación podría cambiar la decisión. Por tanto, el resultado puede tratarse con la debida cautela. Así pues, la regresión logística es muy adecuada para las clasificaciones, a diferencia, por ejemplo, de la regresión lineal, que se limita a interpolar entre casos y, por tanto, sólo se hace visible la decisión final.

El papel de las probabilidades

Las probabilidades, también llamadas odds ratio, contribuyen de forma importante a la utilidad práctica y la interpretabilidad de la regresión logística. Como cociente de probabilidades, también se denominan probabilidades de odds y representan la fuerza del efecto entre las variables. Al realizar una regresión logística con un programa estadístico como SPSS, las probabilidades suelen generarse como un resultado adicional, junto con el error estándar y la probabilidad de error.

Probabilidades > 1 significa una mayor probabilidad de que ocurra un suceso que de que no ocurra.

Probabilidades = 1 significa igualdad de posibilidades.

Probabilidades < 1 significa que la ausencia es más probable.

Esto también nos permite modelizar en qué medida un ligero aumento de la variable independiente incrementa la probabilidad del suceso; por ejemplo, el aumento del riesgo de enfermedad con cada año adicional de vida.

Importancia para el aprendizaje automático

Como muchos otros principios estadísticos, la regresión logística también es adecuada para adquirir conocimientos algorítmicos. Es lo que se conoce como Aprendizaje automático en el sentido de un modelo discriminativo. Como enfoque de solución para problemas de clasificación, el análisis de regresión logística también compite, por ejemplo, con el Clasificador Naive Bayesque, sin embargo, también funciona de forma generativa. En comparación con el aprendizaje profundo, no sólo hay una mayor transparencia, sino que también es posible influir más en los cálculos. Si estos se realizan de forma muy mecánica, apenas se pueden realizar cambios u observaciones.

Mientras que los científicos sociales tienden a examinar los coeficientes con ayuda de programas estadísticos para encontrar explicaciones, en economía se intenta sobre todo predecir puntos de datos desconocidos. Aunque la capacidad de cálculo real la realiza un algoritmo, los analistas e investigadores tienen que hacer mucho trabajo previo: hay que recopilar datos históricos de entrenamiento y procesarlos mediante el llamado "entrenamiento". Ingeniería de funciones en forma de variables adecuadas. Una vez creado un conjunto de entrenamiento adecuado, puede iniciarse rápidamente el análisis de regresión. Además de las previsiones autónomas, la regresión logística también puede aplicarse a modelos complejos como parte de las técnicas de interpretación. En ambos casos se obtienen las ventajas correspondientes:

Ventajas del procedimiento

  • Interpretabilidad: Además de la probabilidad generada por la función logit, coeficientes como las probabilidades representan una fuerza de efecto entre variables. También es posible calcular probabilidades de error. Sin embargo, en procedimientos complejos y modelos de IA con docenas de parámetros, la toma de decisiones suele parecer una "caja negra". La regresión logística puede arrojar luz al respecto mostrando la relación exacta entre las variables individuales de un constructo.
  • Simplicidad: debido a la rapidez de la comprensión basada en los datos, la regresión logística puede servir como modelo de referencia sencillo hasta que se establezca un modelo correspondientemente más complejo y preciso. En comparación, los requisitos computacionales y de datos también son menores; estos últimos, sin embargo, incluyen una representación suficiente de las variables. La regresión lineal es aún más sencilla en este sentido, pero proporciona valores correspondientemente menos significativos.
  • Robustez: Los modelos complejos tienden a sobreinterpretar una pequeña cantidad de datos de entrenamiento; esto se denomina sobreajuste. Se da muy poca importancia a los nuevos datos, aunque tengan un alto valor informativo debido a su actualidad. La regresión logística, en cambio, siempre hará una afirmación estadísticamente sólida basándose en todos los valores disponibles. Por tanto, es más robusta frente a cambios exógenos, pero también puede ser susceptible de sesgo si hay demasiadas variables.

Ámbitos de aplicación

  • Medicina: La regresión logística es especialmente adecuada para identificar factores de riesgo de aparición de una enfermedad. Puede codificarse fácilmente como una variable dependiente dicotómica. Las variables independientes pueden ser, por ejemplo, la dieta, el estilo de vida, la edad o el sexo.
  • Ciencias sociales: para explicar la evolución social y societal, los científicos suelen examinar distintos factores socioculturales y demográficos que encajan bien en una regresión logística debido a sus características. Por ejemplo, se pueden medir los efectos del origen social en la educación o la ocupación. También se utilizan otros tipos de análisis de regresión.
  • Sector financieroEn el ámbito empresarial, existen innumerables oportunidades para generar información valiosa mediante el análisis de regresión logística. Un buen ejemplo es el sector financiero, donde a menudo hay que ocuparse de la estimación de riesgos. Por ejemplo, los prestamistas pueden determinar la probabilidad de que se produzca un impago. Además, determinadas actividades pueden clasificarse como sospechosas en función de diversas características.
la regresión logística puede detectar el blanqueo de dinero
La regresión logística puede descubrir el blanqueo de dinero, por ejemplo.

Conclusión

La sencillez, solidez y alta interpretabilidad de la regresión logística la convierten en una técnica analítica versátil. Utilizando la función logit, puede calcular las probabilidades de variables objetivo binarias basándose en datos históricos. Al utilizar distintos coeficientes, esta forma de análisis de regresión también permite conocer en detalle el tamaño de los efectos de las relaciones investigadas. Así pues, como modelo alternativo o de referencia, puede ofrecer más transparencia que los algoritmos complejos. A la larga, sin embargo, éstos proporcionan resultados más precisos al tener en cuenta un número significativamente mayor de parámetros.

Acerca de Konfuzio

En el complejo panorama del aprendizaje automático, la regresión logística es una metodología esencial que aporta claridad y precisión al análisis de datos. Antes de embarcarse en el uso de estas u otras técnicas estadísticas en su proyecto, le invitamos a aprovechar los conocimientos y la experiencia de nuestros especialistas. Nuestros expertos estarán encantados de contribuir a su proyecto para alcanzar sus objetivos de la mejor manera posible.

    Sobre mí

    Más artículos interesantes

    Escribir textos con IA: Creación de contenidos automatizados que clasifican

    Para ser visibles en la web, las empresas no pueden prescindir de una sofisticada estrategia de marketing de contenidos. En la práctica, esto significa que...

    Leer el artículo
    Startups de IA

    10 startups de IA que deberías conocer en 2023

    El mundo de las start-ups de IA y las empresas de aprendizaje automático se ha convertido en los últimos años en un foco de innovación.

    Leer el artículo

    Liquidación de siniestros: procesamiento eficaz con IA generativa

    La feroz competencia y las elevadas expectativas de los clientes dificultan a las compañías de seguros mantenerse en el mercado. Un importante factor de éxito es...

    Leer el artículo
    Flecha arriba