régression logistique

Régression logistique : une explication simple avec peu de maths

Tim Filzinger

Lorsqu'il s'agit de modèles complexes d'apprentissage automatique, on peut rapidement se heurter à la limite de l'interprétabilité. Dans de tels cas, il n'est pas facile d'expliquer pourquoi une décision ou une prédiction donnée a été prise. La régression logistique est une alternative simple qui permet d'étudier statistiquement les relations possibles entre les variables. Elle constitue ainsi un outil utile pour l'interprétation des décisions de l'IA ainsi que pour les prévisions autonomes.

Qu'est-ce que la régression logistique ?

La régression logistique est une technique d'analyse statistique qui s'intéresse à la relation entre une ou plusieurs variables indépendantes et une variable binaire dépendante. Elle est donc appropriée pour déterminer les probabilités des résultats possibles d'un événement. Il peut s'agir, par exemple, d'une simple décision "oui/non" ou de la réalisation ou de la non-réalisation d'un scénario donné. De telles variables sont également appelées "dichotomiques". Les variables indépendantes - et donc les facteurs d'influence de la relation analysée - sont à échelle numérique ou continue. Les propriétés catégorielles doivent donc être converties en variables binaires. Variables fictives de l'échantillon. Une explication plus détaillée des différents types de caractéristiques se trouve dans ce Plongée profonde.

La régression logistique est un cas particulier de l'analyse de régression qui étudie également d'autres types de variables. Il existe en outre des extensions ordinales et multinomiales qui permettent une plus grande flexibilité en termes de prédiction. Concrètement, elles permettent de prédire des classements ou plusieurs catégories. En règle générale, la régression logistique désigne toutefois l'étude d'une variable cible binaire. Le terme générique pour de telles méthodes est également Modèles Logit. Ils utilisent une fonction logit correspondante et se servent du concept de "cotes". Ceux-ci décrivent le rapport entre la probabilité qu'un événement se produise et la probabilité inverse. Une autre base est l'estimation du maximum de vraisemblance (MLE), qui sert à estimer les odds appropriés.

Exemples de recherches possibles

  • Quelle est la probabilité d'une décision d'achat donnée en fonction des achats précédents ?
  • Un code de réduction peut-il influencer positivement la décision ?
  • Il apparaît qu'un rachat d'entreprise entre sociétés cotées en bourse est imminent. Le cours de l'action de l'entreprise acheteuse va-t-il augmenter ou baisser ?
  • Une personne présentant certaines caractéristiques est-elle solvable ou non ?
  • Il pleut demain à New York ?
probabilité de pluie
La probabilité de pluie peut être modélisée par régression logistique.

Même si certaines de ces questions binaires pourraient tout aussi bien être résolues par d'autres méthodes, elles permettent de se faire une idée de la situation de la modélisation de probabilité binaire. La particularité de la régression logistique est qu'elle permet de déterminer, outre le oui ou le non, le degré de confiance de cette probabilité. Décision examiné.

Comment fonctionne la régression logistique ?

En principe, la régression logistique considère l'effet de la variable indépendante sur la variable dépendante en évaluant les données historiques. Comme la régression linéaire, elle suppose une relation linéaire, mais la valeur cible de la variable dépendante est transformée en une valeur comprise entre 0 et 1. Cela se fait par la fonction Logit utilisée, qui génère ainsi la probabilité correspondante de l'événement. Une courbe de fonction qui en résulte sert à représenter la base de données existante utilisée pour les prédictions.

Fonction logit de la régression logistique
La fonction logit de la régression logistique
f(x) correspond à la variable dépendante ou à sa probabilité, x à la variable indépendante
e = nombre d'Euler, base d'un logarithme naturel

Représenté graphiquement, cela se présente comme suit :

graphique de régression logistique
Courbe de fonction de la régression logistique

La courbe de la régression logistique, typiquement en forme de S, montre comment les valeurs entre 0 et 1 sont fournies indépendamment de l'entrée. Le grand avantage est l'interprétabilité et la possibilité d'estimer une probabilité d'erreur. Par exemple, si la valeur de f(x) est de 0,51, l'événement 1 est certes plus probable, mais un léger écart pourrait modifier la décision. Le résultat peut donc être traité avec la prudence qui s'impose. La régression logistique est donc bien adaptée aux classifications - contrairement à la régression linéaire, par exemple, où l'on se contente d'interpoler entre les cas et où seule la décision finale est donc visible.

Le rôle des cotes

Les cotes, également appelées odds ratio, jouent un rôle important dans l'utilité pratique et l'interprétabilité de la régression logistique. En tant que rapport des probabilités, ils sont également appelés probabilité de cote et représentent l'intensité de l'effet entre les variables. Lors de la réalisation d'une régression logistique avec un programme statistique tel que SPSS, les odds sont donc généralement générés en tant que sortie supplémentaire - en plus de l'erreur standard et de la probabilité d'erreur.

Les odds > 1 signifient que la probabilité qu'un événement se produise est plus élevée que celle qu'il ne se produise pas.

Odds = 1 signifie chances égales

Odds < 1 signifie que l'absence est plus probable.

Cela permet également de modéliser dans quelle mesure une légère augmentation de la variable indépendante augmente la probabilité de l'événement - par exemple, le risque de maladie augmenté par chaque année de vie supplémentaire.

Importance pour l'apprentissage automatique

Comme de nombreux autres principes statistiques, la régression logistique se prête à l'acquisition algorithmique de connaissances. On parle alors d'analyse supervisée l'apprentissage automatique dans le sens d'un modèle discriminatif. En tant qu'approche de résolution des problèmes de classification, l'analyse de régression logistique est également en concurrence, par exemple, avec le Classificateur de Naive Bayesqui, en outre, fonctionne de manière générative. Par rapport au deep learning, il en résulte non seulement une plus grande transparence, mais il est également possible d'influencer davantage les calculs. Si ces derniers sont effectués de manière très automatisée, il n'est guère possible de les modifier ou de les observer.

Alors que les chercheurs en sciences sociales utilisent plutôt des programmes statistiques pour examiner les coefficients et trouver des explications, les économistes essaient surtout de prédire des points de données inconnus. Bien que la puissance de calcul proprement dite soit assurée par un algorithme, les analystes et les chercheurs ont déjà du pain sur la planche en amont : les données d'entraînement historiques doivent être collectées et traitées par ce que l'on appelle le "training". Ingénierie des fonctionnalités sous la forme de variables appropriées. Une fois qu'un ensemble d'entraînement approprié a été créé, l'analyse de régression peut être rapidement lancée. Outre les prévisions autonomes, la régression logistique peut également être appliquée à des modèles complexes dans le cadre de techniques d'interprétation. Dans les deux cas, il en résulte des avantages correspondants :

Avantages de la procédure

  • Interprétabilité : outre la probabilité générée par la fonction logit, les coefficients comme les cotes représentent une intensité d'effet entre les variables. Il est également possible de calculer des probabilités d'erreur. En revanche, dans le cas de procédures complexes et de modèles d'IA comportant des dizaines de paramètres, la prise de décision ressemble souvent à une "boîte noire". La régression logistique peut ici apporter un éclairage en montrant la relation exacte entre les différentes variables d'une construction.
  • <Simplicité : grâce à la rapidité de l'acquisition de connaissances basée sur les données, la régression logistique peut servir de modèle de base simple jusqu'à ce qu'un modèle plus complexe et plus précis soit mis en place. En comparaison, les exigences en matière de calcul et de données sont moins élevées - ces dernières impliquent toutefois une représentation suffisante des variables. La régression linéaire est encore plus simple sur ce point, mais elle fournit des valeurs moins pertinentes.
  • Robustesse : les modèles complexes ont tendance à surinterpréter les données d'entraînement lorsqu'elles sont peu nombreuses ; on parle alors d'overfitting. On accorde alors trop peu de poids aux nouvelles données, bien qu'elles aient une grande valeur informative en raison de leur actualité. La régression logistique, en revanche, donnera toujours une information statistiquement fondée sur toutes les valeurs disponibles. Elle est donc plus robuste face aux changements exogènes, mais peut également être sujette à des distorsions si les variables sont trop nombreuses.

Domaines d'application

  • Médecine : La régression logistique est particulièrement bien adaptée à l'identification des facteurs de risque pour l'apparition d'une maladie. Celui-ci peut être facilement codé sous forme de variable dépendante dichotomique. Les variables indépendantes peuvent être par exemple l'alimentation, le mode de vie, l'âge ou le sexe.
  • Sciences sociales : pour expliquer les évolutions sociales et sociétales, les scientifiques étudient souvent différents facteurs socioculturels et démographiques qui, de par leurs caractéristiques, s'intègrent bien dans une régression logistique. Il est ainsi possible de mesurer les effets de l'origine sociale sur la formation ou la profession. D'autres types d'analyse de régression sont également utilisés.
  • Secteur financierL'économie offre d'innombrables possibilités de générer des connaissances précieuses grâce à l'analyse de régression logistique. Un bon exemple est le secteur financier, où il est souvent nécessaire d'évaluer les risques. Les prêteurs, par exemple, peuvent déterminer la probabilité d'un défaut de paiement. En outre, certaines activités peuvent être classées comme suspectes en fonction de différentes caractéristiques.
la régression logistique peut détecter le blanchiment d'argent
La régression logistique peut par exemple démasquer le blanchiment d'argent.

Conclusion

La simplicité, la robustesse et la grande interprétabilité de la régression logistique en font une technique d'analyse polyvalente. À l'aide de la fonction logit, elle peut calculer les probabilités de variables cibles binaires à partir de données historiques. Grâce à l'utilisation de différents coefficients, cette forme d'analyse de régression permet en outre de se faire une idée détaillée de l'ampleur des effets des corrélations étudiées. Ainsi, en tant qu'alternative ou modèle de référence, elle peut apporter plus de transparence que des algorithmes complexes. A long terme, ces derniers fournissent toutefois des résultats plus précis grâce à la prise en compte d'un nombre nettement plus important de paramètres.

À propos de Konfuzio

Dans le paysage complexe du machine learning, la régression logistique est une méthodologie essentielle qui apporte clarté et précision dans l'analyse des données. Avant de vous lancer dans l'utilisation de ces techniques statistiques ou d'autres dans votre projet, nous vous invitons à faire appel à l'expertise et à l'expérience de nos spécialistes. C'est avec plaisir que nos experts compétents s'impliqueront dans votre projet afin d'atteindre au mieux vos objectifs.

    À propos de moi

    Autres grands articles

    explainable-ai équité transparence

    Les points forts de Konfuzio : construire des systèmes d'IA de confiance

    L'intelligence artificielle (IA) a ouvert un monde de possibilités et a changé la manière dont les entreprises travaillent et prennent des décisions. Le chemin vers la...

    Lire l'article
    Place de marché Marketplace Konfuzio en ligne

    Le marché Konfuzio est maintenant en ligne !

    Que vous commercialisiez déjà des solutions et des produits d'IA, que vous possédiez l'expertise pour développer ces solutions ou que vous soyez tout simplement...

    Lire l'article

    Guide du marketing AI : cas d'utilisation, exemples et outils

    L'importance de l'IA dans le marketing a été démontrée récemment par GAIO (Generative AI Optimization). GAIO se penche sur le défi de savoir comment les entreprises...

    Lire l'article
    Arrow-up