Die Data Pipeline bildet die Basis für datenbasiertes Arbeiten und stellen somit immer mehr das Zentrum von Data Driven Companies, die mit Partnern arbeiten, dar.
Dieser effiziente Datenfluss von einem System zum Anderen, wie z. B. bei einer SaaS-Anwendung zu einem Data Warehouse (DWH) macht eine sinnvolle Datenanalyse erst möglich.
Damit dies reibungslos gelingt, sind Data Pipelines von großer Wichtigkeit.

Data Pipeline: Definition
Die Datenpipeline ist ein Prozess, der es ermöglicht, Rohdaten aus unterschiedlichen Quellen zu sammeln und anschließend in einem Datenspeicher wie einem Data-Lake oder einem Data-Warehouse für weitere Analytics-Vorgänge zu speichern.
Bevor Informationen in ein Datenarchiv eingespeist werden, findet in der Regel eine Aufbereitung der Daten statt.
Dabei werden Datenumwandlungen durchgeführt, wie beispielsweise das Filtern, Anreichern und Zusammenfassen von Daten, um eine angemessene Datenzusammenführung und -normierung zu gewährleisten.
Dabei werden folgende Schritte automatisiert:
- Extraktion
- Transformierung
- Matching
- Validierung
- Laden von Daten für zusätzliche Analysen und Visualisierungen
Dies ist insbesondere von Bedeutung, wenn das Ziel für den Datensatz eine relationale Datenbank ist. Diese Art von Datenrepository verfügt über ein definiertes Schema, das eine Abstimmung – d. h. einen Abgleich von Datenspalten und -typen – erfordert, um vorhandene Daten mit neuen Daten zu aktualisieren.
Data Pipelines im Business Kontext
Datenpipelines sind ein wesentlicher Bestandteil von Data-Science-Projekten und Business-Intelligence-Dashboards.
Sie dienen als „Leitungssystem“, um Daten aus verschiedenen Quellen wie APIs, SQL- und NoSQL-Datenbanken sowie Dateien zu sammeln und aufzubereiten.
Diese Daten können jedoch nicht direkt verwendet werden und erfordern eine strukturierte Aufbereitung durch Data-Scientists oder Dateningenieure, um den Anforderungen des Geschäftsanwendungsfalls gerecht zu werden.
Die Art der Datenverarbeitung, die eine Datenpipeline erfordert, wird durch eine Mischung aus explorativer Datenanalyse und definierten Geschäftsanforderungen bestimmt.
Sobald die Daten entsprechend gefiltert, zusammengeführt und zusammengefasst wurden, können sie gespeichert und zur Nutzung bereitgestellt werden.
Gut organisierte Datenpipelines bilden die Grundlage für eine Vielzahl von Datenprojekten, wie z. B.:
- Explorative Datenanalysen
- Datenvisualisierungen
- Aufgaben des maschinellen Lernens
Da die Data Pipeline gleichzeitig mit vielen Data Streams arbeitet, kann sie sehr effizient eingesetzt werden.

So läuft die Data Pipeline ab
Drei zentrale Schritte stellen die Architektur der Data Pipeline dar:
- Datenaufnahme:
Es gibt verschiedene Quellen, aus denen Daten erfasst werden können, die unterschiedliche Strukturen aufweisen.
Beim Einsatz von Streaming-Daten sind die Rohquellen oft als Produzenten, Bereitsteller oder Absender bekannt.
Obwohl Unternehmen die Entscheidung treffen können, Daten nur dann zu extrahieren, wenn sie für die Verarbeitung bereit sind, ist es empfehlenswert, die Rohdaten zunächst in einem Data-Warehouse in der Cloud zu speichern. Dadurch wird es möglich, historische Daten zu aktualisieren, wenn Datenverarbeitungsjobs angepasst werden müssen.
- Datentransformation:
In diesem Schritt werden diverse Aufgaben durchgeführt, um die Daten in das benötigte Format des Ziel-Datenrepositories zu überführen.
Dabei werden Automation und Governance eingesetzt, um sich wiederholende Workstreams wie die Erstellung von Geschäftsberichten zu erleichtern und sicherzustellen, dass die Daten kontinuierlich bereinigt und transformiert werden.
Ein Datenstrom kann beispielsweise in einem verschachtelten JSON-Format vorliegen, welches bei der Datentransformation aufgelöst wird, um die relevanten Felder für die Analyse zu extrahieren.
- Datenspeicherung
Nach der Transformation werden die Daten in einem Datenarchiv gesichert, um sie für unterschiedliche Interessengruppen zugänglich zu machen.
Bei Streaming-Daten sind diese umgewandelten Informationen üblicherweise als Nutzer, Abonnenten oder Empfänger bekannt. Der Zugriff auf diese Daten ist somit für alle Beteiligten einfach und schnell möglich.
Vorteile der Datenpipeline im System
Ein Pluspunkt von Datenpipelines besteht darin, dass sie Daten als Datenströme betrachten und somit flexible Schemata ermöglichen.
Dabei ist es unerheblich, ob die Daten aus einer statischen Quelle (wie etwa einer Flat-File-Datenbank) oder einer Echtzeitquelle (wie beispielsweise Transaktionen einer e-Business-Lösung) stammen.
Die Data Pipeline ist darauf ausgelegt, all diese Quellen gleichzeitig zu verarbeiten und in ein nachgelagertes System zu übermitteln.
Das Ziel dieser Übertragung muss nicht zwangsläufig ein Data Warehouse sein, sondern kann auch ein anderes System sein, wie zum Beispiel SAP oder Salesforce.
Data Pipeline und ETL-Pipeline: Der Unterschied
Häufig werden die Begriffe Data Pipeline und ETL-Pipeline (Extract-Transform-Load) synonym verwendet – das ist jedoch falsch.
ETL-Pipelines stellen eine Unterkategorie der Datenpipelines dar. 3 Merkmale zeigen dies besonders deutlich:
- ETL-Pipelines folgen einer bestimmten Sequenz. Dabei werden die Daten extrahiert, transformiert und in einem Datenrepository gespeichert. Es gibt aber auch andere Möglichkeiten, Datenpipelines zu gestalten. Insbesondere mit der Einführung von cloudnativen Tools haben sich die Gegebenheiten verändert. In diesen Fällen werden Daten zuerst aufgenommen und dann in das Cloud-Data-Warehouse geladen. Erst danach werden Transformationen durchgeführt.
- ETL-Prozesse beinhalten tendenziell die Batch-Verarbeitung, aber wie bereits erwähnt, ist der Anwendungsbereich von Datenleitungen umfangreicher. Sie können ebenso die Verarbeitung von Datenströmen integrieren.
- Letztlich, obwohl eher selten, ist es nicht zwingend erforderlich, dass Datenpipelines als Gesamtsystem Datentransformationen wie bei ETL-Pipelines ausführen. Dennoch gibt es kaum eine Datenpipeline, die keine Datentransformationen einsetzt, um den Datenanalyseprozess zu erleichtern.
Extract-Load-Transform für den Data Lake
In den letzten Jahren hat sich der ELT-Prozess als eine alternative Variante zum ETL-Prozess etabliert.
Beim ETL-Prozess werden die Daten zuerst aufbereitet, was jedoch dazu führen kann, dass einige Informationen verloren gehen. Ursprünglich stammt dieser Prozess aus dem Data Warehousing-Bereich, wo strukturierte Informationen von großer Bedeutung sind.
Im Gegensatz dazu steht der ELT-Prozess, bei dem die Daten zuerst in eine andere Infrastruktur überführt werden, bevor sie bearbeitet werden. Dadurch bleibt möglichst viel der Originalform und -inhalte erhalten, was insbesondere im Bereich Data Science wichtig ist, um präzise Machine Learning-Modelle zu trainieren.
Der ELT-Prozess findet vor allem im Bereich Big Data und Data Lakes Anwendung, da auch unstrukturierte Daten auf diese Weise effektiv verarbeitet werden können. ETL und ELT werden im Allgemeinen auch als „Data Ingestion“ bezeichnet, was die Datenaufnahme umfasst.

Arten von Data Pipelines
Es gibt zwei Hauptarten von Datenpipelines: Stapelverarbeitung (Batch Processing) und Streaming-Daten (Stream Processing).
Stapelverarbeitung / Batch Processing: Effizient aber langsam
Die Stapelverarbeitung ist ein Prozess, bei dem große Datenmengen in vordefinierten Zeitintervallen außerhalb der Hauptgeschäftszeiten in ein Repository geladen werden.
Hierbei werden Workloads anderer Systeme nicht beeinträchtigt, da die Stapelverarbeitung in der Regel mit großen Datenvolumen arbeiten, die das gesamte System belasten können.
Die Stapelverarbeitung ist die optimale Datenpipeline, wenn es keine direkte Notwendigkeit gibt, einen bestimmten Datenbestand zu analysieren, sondern eher dem ETL-Datenintegrationsprozess zugeordnet ist. Dies steht für „extrahieren, transformieren und laden“.
Die Arbeiten der Stapelverarbeitung bestehen aus einer Abfolge von Befehlen, bei der die Ausgabe eines Befehls zur Eingabe des nächsten Befehls wird. Zum Beispiel kann ein Befehl eine Datenaufnahme starten, der nächste Befehl die Filterung bestimmter Spalten auslösen und der darauffolgende Befehl eine Aggregation abwickeln.
Diese Befehlsreihe wird fortgesetzt, bis die Daten vollständig transformiert und in das Datenrepository geschrieben wurden.
Streaming-Daten / Stream Processing: Aktuell aber aufwendig
Im Unterschied zum Batch-Processing kommen bei kontinuierlich zu aktualisierenden Daten sogenannte Streamingdaten zum Einsatz.
Beispielsweise benötigen Applikationen oder Point-of-Sale-Systeme Echtzeitinformationen, um Lagerbestände und Verkaufshistorien ihrer Artikel zu erneuern. Dadurch können Händler Konsumenten darüber in Kenntnis setzen, ob ein Produkt verfügbar ist oder nicht.
Eine einzelne Aktion, wie etwa ein Verkauf, wird als „Ereignis“ bezeichnet, während damit verbundene Vorgänge, wie das Hinzufügen eines Artikels zur Kasse, üblicherweise als „Thema“ oder „Datenstrom“ kategorisiert werden. Diese Ereignisse werden anschließend über Kommunikationssysteme oder Nachrichtenvermittler, wie zum Beispiel die Open-Source-Software Apache Kafka, übermittelt.
Da Datenereignisse unmittelbar nach ihrem Eintreten verarbeitet werden, weisen Streamingverarbeitungssysteme eine geringere Latenz im Vergleich zu Batch-Systemen auf.
Allerdings gelten sie als weniger verlässlich, da Nachrichten unbeabsichtigt verworfen oder für längere Zeit in der Warteschleife verbleiben können.
Um dieses Problem zu bewältigen, setzen Nachrichtenvermittler auf Bestätigungsverfahren, bei denen ein Anwender dem Vermittler die erfolgreiche Verarbeitung der Nachricht bestätigt, um sie aus der Warteschleife zu entfernen.
Anwendungsfälle und Tools einer Data Pipeline
Datenmanagement wird aufgrund der Zunahme von Big Data immer relevanter. Data Pipelines erfüllen verschiedene Funktionen, was sich z. B. in den folgenden 3 Anwendungsfällen im Unternehmenskontext widerspiegelt:
Maschinelles Lernen
Das maschinelle Lernen legt den Fokus auf den Einsatz von Daten und Algorithmen, um den Lernprozess von Menschen nachzuahmen und dadurch kontinuierlich die Präzision zu erhöhen.
Mithilfe statistischer Verfahren werden Algorithmen trainiert, um Klassifizierungen oder Prognosen zu erstellen und essenzielle Einsichten in Data-Mining-Projekten zu gewinnen, wie z. B. beim Dokumentenmanagement mit KI von Konfuzio.
Artikel-Beispiele zu diesem Bereich:
- IDP: Intelligent Document Processing Definition & Anwendungen
- Text Mining Wiki – Definitionen und Anwendungsbeispiele
- Process Mining: Die wichtigsten Definitionen und Tools
Explorative Datenanalyse
Data-Scientists nutzen die explorative Datenanalyse (EDA), um Datensätze zu untersuchen und ihre wichtigsten Merkmale zu erfassen.
Dabei kommen oft Datenvisualisierungsmethoden zum Einsatz.
Die EDA unterstützt dabei, die Datenquellen optimal zu bearbeiten, um die benötigten Antworten zu finden und Muster sowie Anomalien aufzudecken. Zudem können Hypothesen getestet und Annahmen überprüft werden.
Datenvisualisierungen
Durch Datenvisualisierungen werden Informationen mithilfe gängiger grafischer Elemente wie Diagrammen, Plots, Infografiken und sogar Animationen dargestellt.
Diese visuellen Abbildungen von Daten ermöglichen es, komplexe Zusammenhänge und erkenntnisreiche Daten auf eine leicht verständliche Art und Weise zu vermitteln.

Data Pipeline: Beispiele
Die Data Pipeline hat eine große Bandbreite an Einsatzmöglichkeiten, zum Beispiel:
- Dokumentenverarbeitungs-API: Eine mögliche Anwendung von Document AI in einem deutschen Unternehmen ist die Implementierung einer Dokumentenverarbeitungs-API, die es ermöglicht, Dokumente aus verschiedenen Quellen wie E-Mails, PDFs oder Scans automatisch zu extrahieren und zu verarbeiten. Mithilfe von Machine-Learning-Modellen kann die API wichtige Informationen wie Namen, Adressen oder Auftragsnummern erkennen und in einem strukturierten Format ausgeben. Durch die Implementierung einer Dokumentenverarbeitungs-API können Unternehmen ihren Datenaustauschprozess optimieren und die manuelle Verarbeitung von Dokumenten reduzieren. Insbesondere bei großen Datenmengen oder komplexen Dokumenten kann die API einen erheblichen Mehrwert bieten und dazu beitragen, die Effizienz und Genauigkeit der Datenverarbeitung zu verbessern. Darüber hinaus können die extrahierten Daten direkt in andere Systeme oder Prozesse integriert werden, um einen nahtlosen Datenaustausch innerhalb des Unternehmens zu gewährleisten.
- File Reader into DWH: Ein gängiges Anwendungsszenario besteht darin, eine Datei unkompliziert einzulesen und umzuformatieren, um sie anschließend in ein Data Warehouse zu integrieren. Beispielsweise kann man eine Excel-Datei mithilfe von Python importieren, Transformationsprozesse durchführen und diese anschließend mit SQL in einer Oracle-Datenbank speichern.
- Product Information API: Eine andere Ausrichtung bietet die Product Information API, welche es ermöglicht, mittels eines ETL-Tools Informationen aus PIM und ERP zu vereinen und über eine API bereitzustellen. Ob als Datei oder REST API – die Zusammenführung von Datenquellen und deren Auslieferung an verschiedene Kanäle bietet oft einen erheblichen Mehrwert für das Unternehmen.
- IoT Event Streaming: Ein weiteres Beispiel für eine komplexe Pipeline ist die Übertragung von Daten von einem Edge-Gerät des Internet of Things in die Cloud. Durch den Einsatz von Event-Streaming werden die Daten in Echtzeit übertragen und in einer unstrukturierten Datenbank gespeichert. Zusätzlich werden On-Stream-Analysen durchgeführt, um die Datenqualität sicherzustellen. Aufgrund der großen Datenmengen und der hohen Anforderungen an die Datenverarbeitung ist hierbei ein hohes Maß an Expertise und Überwachung erforderlich.
Fazit: Data Pipelines sind vielseitig einsetzbar und effizient
Nutzen Sie Data Pipelines, um Ihr Unternehmen flexibler und gleichzeitig effizienter zu machen.
Die Möglichkeiten des Batch Streaming und Stream Processing machen es möglich, je nach Daten die richtige Datenverarbeitungsmethode zu wählen.
Durch die großen Einsatzmöglichkeiten können Sie Data Pipelines an verschiedenen Stellen einsetzen und so übergreifend von den Vorteilen profitieren.
Schreiben Sie einen Kommentar