logistic regression

Logistische Regression: Einfache Erklärung mit wenig Mathe

Tim Filzinger

Wenn es um komplexe Modelle maschinellen Lernens geht, kann man schnell an die Grenze der Interpretierbarkeit stoßen. In solchen Fällen ist es nicht leicht zu erklären, warum eine bestimmte Entscheidung oder Vorhersage getroffen wurde. Die logistische Regression ist eine einfache Alternative, mit der sich mögliche Zusammenhänge zwischen Variablen statistisch untersuchen lassen. Dadurch stellt sie ein hilfreiches Werkzeug zur Interpretation von KI-Entscheidungen sowie für eigenständige Prognosen dar.

Was ist logistische Regression?

Die logistische Regression ist eine statistische Analysetechnik, die sich mit der Beziehung zwischen einer oder mehreren unabhängigen Variablen und einer abhängigen, binären Variable befasst. Somit ist sie geeignet, um die Wahrscheinlichkeiten möglicher Resultate eines Ereignisses zu bestimmen. Das kann beispielsweise eine einfache Ja/Nein-Entscheidung oder das Eintreten bzw. Ausbleiben eines bestimmten Szenarios sein. Derartige Variablen werden auch “dichotom” genannt. Die unabhängigen Variablen – und somit die Einflussgrößen des analysierten Zusammenhangs – sind numerisch bzw. kontinuierlich skaliert. Kategoriale Eigenschaften müssen daher in binäre Dummy Variablen zerlegt werden. Eine genauere Erklärung der einzelnen Merkmalstypen findet sich in diesem Deep Dive.

Die logistische Regression ist ein Spezialfall der Regressionsanalyse, die auch andere Arten von Variablen untersucht. Zudem gibt es ordinale und multinomiale Erweiterungen, die eine höhere Flexibilität in Bezug auf die Vorhersage ermöglichen. Konkret lassen sich dadurch Rangfolgen oder mehrere Kategorien vorhersagen. In der Regel ist mit logistischer Regression allerdings die Untersuchung einer binären Zielgröße gemeint. Als Oberbegriff für solche Verfahren gelten auch Logit-Modelle. Sie verwenden eine entsprechende Logit-Funktion und bedienen sich des Konzepts der sogenannten Odds. Diese beschreiben das Verhältnis der Wahrscheinlichkeit, dass ein Ereignis eintritt, zur Gegenwahrscheinlichkeit. Eine weitere Grundlage ist die Maximum-Likelihood-Estimation (MLE), die der Abschätzung passender Odds dient.

Beispiele möglicher Untersuchungen

  • Wie hoch ist die Wahrscheinlichkeit einer bestimmten Kaufentscheidung in Abhängigkeit bisheriger Käufe?
  • Kann ein Rabattcode die Entscheidung positiv beeinflussen?
  • Es wird sichtbar, dass eine Firmenübernahme unter börsennotierten Unternehmen bevorsteht. Wird der Aktienkurs der kaufenden Firma steigen oder fallen?
  • Ist eine Person mit bestimmten Charakteristika kreditwürdig oder nicht?
  • Regnet es morgen in New York?
regen wahrscheinlichkeit
Die Regenwahrscheinlichkeit lässt sich durch logistische Regression modellieren.

Auch wenn einige dieser binären Fragestellungen ebenso durch andere Methoden gelöst werden könnten, ermöglichen sie einen Einblick in die Situation der binären Wahrcheinlichkeitsmodellierung. Die Besonderheit der logistischen Regression ist, dass sie dabei neben dem Ja oder Nein auch die Konfidenz dieser Entscheidung untersucht.

Wie funktioniert logistische Regression?

Prinzipiell betrachtet die logistische Regression den Effekt der unabhängigen Variable auf die abhängige Variable, indem sie historische Daten auswertet. Dabei unterstellt sie wie die lineare Regression einen linearen Zusammenhang, allerdings wird der Zielwert der abhängigen Variable in eine Größe zwischen 0 und 1 transformiert. Das geschieht durch die verwendete Logit-Funktion, die somit die entsprechende Wahrscheinlichkeit des Ereignisses generiert. Eine daraus entstehende Funktionskurve dient der Abbildung der vorhandenen Datenbasis, die für die Vorhersagen genutzt wird.

Logit-Funktion der logistischen Regression
Die Logit-Funktion der logistischen Regression
f(x) entspricht der abhängigen Variable bzw. deren Wahrscheinlichkeit, x der unabhängigen Variable
e = eulersche Zahl, Basis eines natürlichen Logarithmus

Grafisch dargestellt sieht das wie folgt aus:

logistic regression graph
Funktionskurve der logistischen Regression

In der typischerweise s-förmigen Kurve der logistischen Regression wird sichtbar, wie unabhängig von der Eingabe Werte zwischen 0 und 1 ausgegeben werden. Der große Vorteil dabei ist die Interpretierbarkeit und die mögliche Abschätzung einer Irrtumswahrscheinlichkeit. Wenn der Wert von f(x) beispielsweise 0,51 annimmt, ist zwar Ereignis 1 wahrscheinlicher, aber eine leichte Abweichung könnte die Entscheidung verändern. Das Ergebnis kann daher mit entsprechender Vorsicht behandelt werden. Die logistische Regression ist somit gut geeignet für Klassifizierungen – anders als z.B. die lineare Regression, bei der zwischen den Fällen lediglich interpoliert und somit nur die finale Entscheidung sichtbar wird.

Die Rolle der Odds

Für den praktischen Nutzen und die Interpretierbarkeit der logistischen Regression tragen die Odds, auch Odds Ratio genannt, einen wichtigen Teil bei. Als Verhältnis der Wahrscheinlichkeiten werden sie auch Quotenwahrscheinlichkeit genannt und bilden die Effektstärke zwischen den Variablen ab. Bei der Durchführung einer logistischen Regression mit einem Statistikprogramm wie SPSS werden die Odds daher meist als zusätzlicher Output generiert – neben Standardfehler und Irrtumswahrscheinlichkeit.

Odds > 1 bedeuten eine höhere Wahrscheinlichkeit für das Eintreten eines Ereignisses als für das Ausbleiben.

Odds = 1 bedeuten gleiche Chancen.

Odds < 1 heißt, das Ausbleiben ist wahrscheinlicher.

Dadurch lässt sich zudem modellieren, wie stark durch eine leichte Erhöhung der unabhängigen Variable die Wahrscheinlichkeit für das Ereignis steigt – z. B. das durch jedes weitere Lebensjahr erhöhte Risiko einer Krankheit.

Bedeutung für Machine Learning

Wie viele andere statistische Prinzipien eignet sich auch die logistische Regression für algorithmischen Erkenntnisgewinn. Man spricht dabei von überwachtem maschinellen Lernen im Sinne eines diskriminativen Modells. Als Lösungsansatz für Klassifikationsprobleme konkurriert die logistische Regressionsanalyse beispielsweise auch mit dem Naive-Bayes-Klassifikator, der darüber hinaus allerdings generativ arbeitet. Im Vergleich zu Deep Learning ergibt sich nicht nur eine höhere Transparenz, es ist auch mehr Einflussnahme auf die Berechnungen möglich. Erfolgen diese hochgradig maschinell, sind kaum Veränderungen oder Beobachtungen durchführbar.

Während Sozialwissenschaftler mithilfe von Statistikprogrammen eher die Koeffizienten betrachten, um Erklärungen zu finden, versucht man in der Wirtschaft vor allem unbekannte Datenpunkte vorherzusagen. Obwohl die eigentliche Rechenleistung durch einen Algorithmus erledigt wird, kommt bereits im Vorfeld einiges an Arbeit auf Analysten und Forschende zu: Historische Trainingsdaten müssen gesammelt und durch sogenanntes Feature Engineering in die Form geeigneter Variablen gebracht werden. Ist ein passendes Trainingsset erstellt, kann schnell mit der Regressionsanalyse begonnen werden. Neben eigenständigen Prognosen lässt sich logistische Regression auch im Rahmen von Interpretationstechniken auf komplexe Modelle anwenden. In beiden Fällen ergeben sich entsprechende Benefits:

Vorteile des Verfahrens

  • Interpretierbarkeit: Neben der durch die Logit-Funktion generierten Wahrscheinlichkeit bilden Koeffizienten wie die Odds eine Effektstärke zwischen Variablen ab. Auch die Berechnung von Irrtumswahrscheinlichkeiten ist möglich. Bei komplexen Verfahren und KI-Modellen mit dutzenden Parametern gleicht die Entscheidungsfindung hingegen oft einer “Black Box”. Die logistische Regression kann hier Licht ins Dunkel bringen, indem sie den genauen Zusammenhang zwischen einzelnen Variablen eines Konstrukts aufzeigt.
  • Einfachheit: Durch die Schnelligkeit des datenbasierten Erkenntnisgewinns kann die logistische Regression als einfaches Baseline-Modell herhalten, bis ein entsprechend komplexeres und genaueres Modell aufgesetzt ist. Im Vergleich dazu sind zudem die Rechen- und Datenanforderungen geringer – letztere beinhalten jedoch eine ausreichende Repräsentiertheit der Variablen. Die lineare Regression ist in diesem Punkt noch einfacher, liefert aber entsprechend weniger aussagekräftige Werte.
  • Robustheit: Komplexe Modelle neigen bei wenigen Trainingsdaten dazu, diese überzuinterpretieren; man spricht dabei von Overfitting. Neuen Daten wird dabei zu wenig Gewicht verliehen, obwohl sie aufgrund ihrer Aktualität eine hohe Aussagekraft haben. Die logistische Regression wird hingegen immer eine statistisch fundierte Aussage anhand aller vorhandenen Werte treffen. Somit ist sie robuster gegenüber exogener Veränderungen, kann bei zu vielen Variablen allerdings ebenfalls anfällig für Verzerrungen werden.

Anwendungsbereiche

  • Medizin: Die logistische Regression ist besonders gut geeignet, um Risikofaktoren für das Auftreten einer Krankheit zu ermitteln. Dieses lässt sich leicht als dichotome, abhängige Variable codieren. Unabhängige Variablen können beispielsweise Ernährung, Lebensweise, Alter oder Geschlecht sein.
  • Sozialwissenschaften: Zur Erklärung gesellschaftlicher und sozialer Entwicklungen untersuchen Wissenschaftler oft unterschiedliche soziokulturelle sowie demografische Faktoren, die durch ihre Merkmalsausprägung gut in eine logistische Regression passen. So lassen sich beispielsweise Auswirkungen der sozialen Herkunft auf Bildung oder Beruf messen. Dabei kommen auch diverse andere Typen der Regressionsanalyse zum Einsatz.
  • Finanzsektor: In der Wirtschaft ergeben sich zahllose Möglichkeiten, um durch logistische Regressionsanalyse wertvolle Erkenntnisse zu generieren. Ein gutes Beispiel ist die Finanzbranche, in der man sich oft mit der Abschätzung von Risiken auseinandersetzen muss. So können etwa Kreditgeber ermitteln, wie wahrscheinlich mit einem Zahlungsausfall zu rechnen ist. Zudem lassen sich bestimmte Aktivitäten anhand verschiedener Merkmale als verdächtig klassifizieren.
logistic regression kann Geldwäsche erkennen
Die logistische Regression kann beispielsweise Geldwäsche enttarnen.

Fazit

Die Einfachheit, Robustheit und hohe Interpretierbarkeit der logistischen Regression machen sie zu einer vielseitig einsetzbaren Analysetechnik. Mithilfe der Logit-Funktion kann sie die Wahrscheinlichkeiten binärer Zielvariablen anhand historischer Daten berechnen. Durch die Verwendung verschiedener Koeffizienten erlaubt diese Form der Regressionsanalyse zudem detaillierte Einblicke in die Effektstärken untersuchter Zusammenhänge. Somit kann sie als Alternative oder Baseline-Modell mehr Transparenz schaffen als komplexe Algorithmen. Langfristig liefern diese durch die Berücksichtigung von deutlich mehr Parametern allerdings genauere Ergebnisse.

Über Konfuzio

In der komplexen Landschaft des maschinellen Lernens stellt die logistische Regression eine essenzielle Methodik dar, die Klarheit und Präzision in die Analyse von Daten bringt. Bevor Sie sich auf den Weg machen, diese oder andere statistische Techniken in Ihrem Projekt einzusetzen, laden wir Sie ein, die Expertise und Erfahrung unserer Fachleute in Anspruch zu nehmen. Gerne bringen sich unsere fachkundigen Experten in Ihr Projekt ein, um Ihre Ziele bestmöglich zu erreichen.

    Über mich

    Weitere Artikel

    snowflake alternatives titel

    Snowflake-Alternativen: Entscheidungswege im Daten-Dschungel

    In einer sich ständig weiterentwickelnden datengetriebenen Geschäftswelt ist die Wahl der richtigen Datenmanagement-Plattform von entscheidender Bedeutung.  Während Snowflake zweifellos eine...

    Zum Artikel
    Prozessoptimierung

    Prozessoptimierung – Definition, Praxisbeispiele und Tools

    Vielleicht steht Ihr Unternehmen vor diesen Herausforderungen: Die Verarbeitung von Dokumenten kostet sie Zeit und Energie. Die psychische Belastung ihrer...

    Zum Artikel

    Warum CaaS? Entdecken Sie die Vorteile für Ihre IT-Architektur

    Um Anwendungen schnell, flexibel und skalierbar bereitzustellen, verlagern immer mehr Unternehmen einen Teil ihrer IT in eine Container-Infrastruktur. Dazu buchen...

    Zum Artikel
    Arrow-up