Semistructured Data: Herausforderungen und Lösungswege

Der rasant wachsende Datenstrom rund um moderne Unternehmen verlangt in diesen Zeiten nach passgenauen Verarbeitungsstrategien. Neben unstrukturierten Formaten können dabei auch halbstrukturierte Daten (engl. semistructured Data) zu einer Herausforderung werden – vor allem dann, wenn sie weniger strukturiert sind als zu Beginn eines Projekts angenommen. In diesem Beitrag befassen wir uns mit den Besonderheiten dieser Daten-Mischform und zeigen Lösungswege zum Umgang damit auf.

Was ist semistructured Data?

Semistructured Data sind Daten, die tabellarische Ordnung vermissen lassen, aber durch bestimmte Markierungen eine hierarchische Grundstruktur haben. Das ermöglicht zwar prinzipiell eine Kategorisierung und Weiterverarbeitung, allerdings sind dabei aufgrund mangelhafter Struktur keine relationalen Datenbanken nutzbar. Semistructured Data entzieht sich also gewissermaßen dem oft binär begriffenen Kategoriensystem, das gerne auf Daten angewandt wird. Zunächst die beiden gängigsten Datenformen zu definieren, kann helfen, diese Mischform davon abzugrenzen und besser zu verstehen:

Structured Data ist auf eine bestimmte, konsistente Weise organisiert und folgt somit einer durchgängigen Logik. Einzelne Datenteile sind in der Regel Variablen oder Eingabefeldern zugeordnet, sodass sie ideal in Datenbanken und Tabellen gespeichert werden können. Das ermöglicht eine besonders einfache Navigation zu bestimmten Informationen – beispielsweise Kundennummern, Vertragsdetails oder Rechnungsinhalten. Zudem bieten strukturierte Daten die ideale Grundlage für KI-basierte Weiterverarbeitung. Machine Learning Algorithmen benötigen diese mathematische Ordnung in Informationen, um sie bestmöglich zu analysieren.

Unstructured Data hat hingegen keine Ordnung und muss nicht einmal in ähnlichen Dateiformaten vorliegen. Das erschwert die Datenanalyse und -verarbeitung immens. Daher schafft man in der Regel zunächst eine notwendige Grundstruktur, bevor ein datenbasierter Erkenntnisgewinn möglich ist.

Semistructured Data ist diesem Erkenntnisgewinn bereits einen Schritt näher. Durch verschiedene Metadaten und Tags können bestimmte Hierarchien aufgebaut oder semantische Elemente getrennt sein. Grundsätzlich erleichtert das die Weiterverarbeitung, allerdings wäre für die Speicherung in typischen, z.B. SQL-basierten Datenbanken ein relationaler Aufbau notwendig. Teilweise versteht man semistructured Data auch als Unterart strukturierter Daten, da sie durch die Markierungen zumindest ein Mindestmaß an Grundordnung innehaben. Die Betrachtung dieser Mischform als eigenständiger Datentyp kann jedoch Irritationen vorbeugen und verdeutlicht, dass bei ihrer Verarbeitung eine Sonderbehandlung notwendig ist.

Beispiele für semistructured Data

Durch die Etablierung des Internets sind viele semistrukturierte Datenformate entstanden, was die bis dahin sehr datenbankorientierte IT stark verändert hat. Entsprechend häufige Quellen sind:

  • E-Mails
  • Websites
  • Social Media Inhalte
  • Word-Dokumente (mit Tags)
  • ZIP-Dateien
  • Binärdateien (z.B. .exe, .bin)

Zudem sind zwei bestimmte Datenformate gerade deshalb so populär, weil sie die Speicherung semistrukturierter Daten erlauben und eine entsprechend vielseitige Nutzung ermöglichen. Allerdings ist es in den vergangenen zwanzig Jahren zu einer deutlichen Umverteilung dieser Beliebtheit gekommen.

XML JSON
Man erkennt den Wechsel von XML zu JSON sowie das anschließend wachsende Suchinteresse in API

XML

XML (Extendable Markup Language) eignet sich zum Speichern von nahezu beliebigen Daten. Als Auszeichnungssprache erlaubt sie insbesondere die Strukturierung und Formatierung von Text, indem dieser mit entsprechenden Tags versehen wird. Das erleichtert zum einen die maschinelle Weiterverarbeitung, andererseits ist das Format menschenlesbar. Aus diesen Gründen taucht XML in einer Vielzahl von Unternehmensprozessen auf, ist aber je nach Grad der Strukturiertheit mit Vorsicht zu behandeln.

JSON

Ähnliches gilt für das offene Standard-Datenformat JSON (JavaScript Object Nation). Es dient vor allem als Austauschformat von semistrukturierten Daten aus unterschiedlichsten Quellen. Als Schnittstellen dienen in der Regel die besonders flexiblen REST-APIs. Da JSON rein textbasiert ist, kann somit unkompliziert zwischen diversen Servern, Webbrowsern und Unternehmensanwendungen vermittelt werden. So wird allerdings leicht die etwas trügerische Daten-Mischform im gesamten Unternehmen verteilt, was zu verschiedenen Problemen führen kann. Eines der häufigsten Missverständnisse ist, dass alle JSON-Datenstrukturen gleich sind, nur weil sie dem gleichen Format folgen.

In der Praxis variieren Qualität und Struktur der Daten sehr stark – in Abhängigkeit von den individuellen Anwendungen oder Quellen, durch die sie generiert wurden.

Herausforderungen der Daten-Mischform

Semistrukturierte Daten bringen besonders aufgrund ihrer Flexibilität einige Vorteile mit. Sie sind etwa in ihrer Ordnung leicht veränderbar und unterstützen Nutzer ohne SQL-Kenntnisse. Dafür zahlen Unternehmen allerdings einen hohen Preis, der sich in Risiko und Fehleranfälligkeit dieser Datentypologie ausdrückt. Während strukturierte Daten eine der wichtigsten Ressourcen darstellen, SQL-Abfragen zusammenhalten und Business-Intelligence-Tools mit verlässlichen Informationen versorgen, kann semistructured Data diese Ordnung auf unberechenbare Weise stören. Das zeigt sich besonders in drei Herausforderungen:

Datenintegration

Semistructured Data in eine datenbankgestützte Umgebung zu integrieren kann aufgrund fehlenden relationalen Aufbaus problematisch sein. Gleiches gilt für den Versuch, sie in Tabellen einzufügen. Besonders traditionell aufgebaute Infrastrukturen sind für diesen unkonventionellen Datentyp kaum vorbereitet. Zudem kann die versuchte Vermischung mit strukturierten Daten oder unterschiedlichen Formaten zu erheblichen Verzerrungen führen.

Datenqualität

Semistructured Data ist aufgrund mangelnder Ordnung oftmals lückenhaft und inkonsistent. Zudem kommen regelmäßig Fehler vor, die durch manuelle Eingaben entstanden sind. Diese Schwächen zu bereinigen und den wertvollen Datengehalt zu extrahieren, stellt Unternehmen vor erhebliche Probleme.

semi-structured data quality
Viele Quellen semistruktureller Daten sind anfällig für Tippfehler.

Datensicherheit

Auch in puncto Cybersecurity und Compliance besteht ein gewisses Risiko. Schutzmechanismen wie Firewalls greifen am besten für structured Data, da diese sich statisch verhalten und rollenbasierte Zugangsbeschränkungen erleichtern. Semistructured Data kann hingegen unvorhergesehene Formen annehmen und mit unsicheren Links gespickt sein. Das erschwert den Überblick sowie die Einhaltung von Vorschriften wie die DSGVO oder CCPA.

So gelingt die Datenverarbeitung

Mittlerweile ist semistructured Data allerdings längst keine neue Erscheinung mehr und die moderne Informationstechnologie kann ihr mit hochentwickelten Lösungen entgegentreten:

KI-basierte Analytik: Algorithmen für maschinelles Lernen sind in der Lage, semistructured Data zu analysieren, um dabei relevante Datenteile zu extrahieren und zu ordnen. Ein besonders großes Feld ist die Verarbeitung natürlicher Sprache, welche Grundlage der meisten semistrukturierten Formate ist. Mittels Natural Language Processing (NLP) wird Text beispielsweise in semantische Einheiten aufgespalten, die sich mathematisch codieren und somit automatisiert erfassen lassen. Ähnlich arbeitet auch Natural Language Understanding (NLU), nur dass diese Technologie durch die Suche nach Schlüsselwörtern eine tiefergehende semantische Analyse ermöglicht.

Einen anderen Ansatz liefert KI-basierte Optical Character Recognition (OCR). Sie konzentriert sich auf die visuelle Erkennung einzelner Buchstaben, die mittels neuronaler Netze mit Trainingsdaten abgeglichen werden. Nicht zuletzt lassen sich auch KI-Klassifikatoren, die durch probabilistische Prinzipien wie z.B. Naive Bayes Objekte in Kategorien einordnen, zur Analyse von semistructured Data nutzen. Ein typisches Beispiel sind E-Mail-Spam-Filter.

NoSQL-Datenbanken: Im Gegensatz zu relationalen Datenbanken sind diese speziell dafür konzipiert, semistructured Data aufzunehmen. Dabei ist kein festes Schema notwendig und es lässt sich eine Vielzahl verschiedenster Datenformate verarbeiten. Zudem erlauben sie eine hohe Verfügbarkeit und Skalierbarkeit, was eine Datenverarbeitung in Echtzeit ermöglicht.

Data Lakes: Hierunter versteht man besonders effiziente Speicherumgebungen, die immense Mengen an structured, unstructured und semistructured Data aufnehmen können. Dabei ist ebenfalls kein starres Schema notwendig, es handelt sich vielmehr um einen Zwischenspeicher, der die Daten so lange sichert, bis man sie beispielsweise mit Verarbeitungstools in die passende Form bringt.

Data Governance-Tools: Um Daten zu kategorisieren, nachzuverfolgen und deren Richtlinien zu verwalten, gibt es entsprechende Tools. Diese ermöglichen es, sowohl die Datenqualität zu steigern, als auch für mehr Sicherheit beim Umgang mit semistructured Data zu sorgen.

semi-structured cybersecurity

Semistructured Data mit Konfuzio verarbeiten

Als datenzentrierte IDP Software kombiniert Konfuzio obenstehende Verarbeitungstechniken und einige der hochentwickelsten KI-Methoden, um eine möglichst ganzheitliche und zuverlässige Verarbeitung von Daten zu gewährleisten. Dabei konzentriert sie sich besonders auf die automatisierte Verarbeitung von Dokumenten, die häufig semi- oder gar unstructured Data enthalten.

Automatisierung von Dokumenten

Mithilfe der Document AI von Konfuzio lassen sich diverse Dokumente von beliebiger Strukturiertheit automatisiert auslesen. Dabei kommt insbesondere optisch-semantische KI zum Einsatz, die OCR, NLP und Computer Vision kombiniert. Aufgrund der unterschiedlichen Herangehensweisen dieser einzelnen Technologien erfasst Konfuzio auch heterogene und komplexe Dokumente treffsicher und extrahiert alle relevanten Daten. Diese können anschließend in strukturierten Formaten weiterverwendet und beispielsweise in das unternehmenseigene ERP- oder CRM-System eingespeist werden. Semistructured Data wird somit von einer gefährlichen Störvariablen zu einer wertvollen Ressource, die für fundierte Entscheidungen anwendbar ist.

Volle Datenkontrolle

Konfuzio trägt dabei jederzeit für die Einhaltung von Sicherheitsstandards Sorge und gewährleistet dies durch regelmäßige Updates, wenn die Plattform über die Cloud implementiert ist. Dabei ist eine lückenlose Verfügbarkeit und API-Zugriff über beliebige Browser gegeben. Auf diesem Weg lassen sich beispielsweise auch Data Lakes anbinden, um eine flexible Speicherung der Daten zu ermöglichen. Diese verlassen bei der Nutzung von Konfuzio zu keinem Zeitpunkt den europäischen Rechtsraum. Für mehr Datenkontrolle kann die Plattform auch on-premise über eigene Server betrieben werden.

Ausblick: Large Language Models als neuer Durchbruch

LLMs sind ein besonders aktueller und vielversprechender Lösungsansatz. Man versteht darunter große Sprachmodelle, die ein Pre-Training mit immensen Textmengen durchlaufen haben. Für individuelle Aufgaben lassen sich LLMs durch ein Fine-Tuning abstimmen – zum Beispiel, um semistructured Data zu verarbeiten. Ein Team von Forschern aus Stanford und Cornell hat zu diesem Zweck eine Methode entwickelt, um dabei die Inferenzqualität deutlich zu steigern. Die Besonderheit: Im Gegensatz zu anderen Versuchen verspricht die Strategie eine Kostensenkung um das 110-fache!

Kern des Ganzen ist ein elaboriertes Code-Synthese-Tool, das ein geeignetes Schema für heterogene Dokumente identifizieren und anwenden soll. Dafür analysiert es lediglich Bruchstücke des jeweiligen Dokuments mithilfe eines LLMs. Durch dessen hohe Flexibilität wird vereinfachenden Annahmen und somit typischen Fehlern bei der Datenextraktion vorgebeugt. Auch weil das Konzept prinzipiell modifizierbar ist, könnte es sich künftig zur wichtigsten Strategie im Umgang mit semistructured Data entwickeln.

Fazit

Semistructured Data stellt Unternehmen aufgrund ihrer Unberechenbarkeit vor Probleme. Für klassische Datenbanken fehlt die relationale Ordnung und der vorhandene Grad an Strukturiertheit in Form von Tags kann stark variieren. Das erschwert die Datenintegration, mindert die Datenqualität und kann zu Sicherheitsproblemen führen. Moderne Lösungsansätze konzentrieren sich besonders auf den flexiblen Einsatz von künstlicher Intelligenz. Mit Techniken wie OCR oder NLP lassen sich relevante Daten aus semistrukturierten Formaten extrahieren und weiterverarbeiten. Diese Herangehensweise findet in der Softwareumgebung Konfuzio in Kombination mit vielseitigen Technologien die volle Ausschöpfung ihres Potentials – bei maximaler Datensicherheit.

«
»
Avatar von Tim Filzinger

Neueste Artikel