Buzzword-Bingo: Wenn Fachbegriffe versagen

Maximilian Schneider

Heute nehmen wir uns die Ansicht von Dan Lucarini vor, der in seiner Rolle als führender Analyst für IDP (Intelligent Document Processing) die Meinung vertritt, dass die terminologische Vielfalt in unserem Feld mehr Verwirrung stiftet als sie nützt. Es gibt jedoch, wie so oft, zwei Seiten einer Medaille.

I suspect this marketing word salad is a consequence of the massive FOMO (fear of missing out) infecting the C-suite.

Dan Lucarini, Documents, content, files, records, semi-structured or unstructured data: do labels really matter anymore?

Zunächst ist es wichtig zu betonen, dass wir Bedenken von Dan voll und ganz verstehen. Er argumentiert, dass die Begriffe, die wir zur Beschreibung der Datenarten verwenden, die wir verarbeiten – seien es „Dokumente“, „Inhalt“, „Dateien“, „Datensätze“, „semi-strukturierte Daten“ oder „unstrukturierte Daten“ – für Verwirrung sorgen und letztendlich wenig von Bedeutung sind. Dieser Standpunkt ist nachvollziehbar.

Das Problem, so Dan, entsteht jedoch, wenn diese Bezeichnungen auf eine ungebildete und inflationäre Weise verwendet werden. Branchenjargon, wenn er missbraucht oder übermäßig verwendet wird, kann zu Buzzwords werden, die Verwirrung stiften und die ursprüngliche Absicht der Begriffe verwässern.

Wir stimmen dem in Teilen zu. Es ist jedoch wichtig zu bedenken, dass Fachbegriffe in der Wissenschaft und Technik oft aus gutem Grund existieren. Sie ermöglichen präzise und klare Kommunikation zwischen Experten. Wenn sie jedoch aus ihrem ursprünglichen Kontext gerissen und inflationär verwendet werden, können sie tatsächlich zu einer Art „Buzzword-Bingo“ werden, bei dem die wahre Bedeutung der Begriffe verloren geht.

Dieser Artikel wurde auf Deutsch verfasst und redaktionell überprüft. Weitere Sprachen stehen als automatische Übersetzung zur Verfügung. Wir freuen uns über Feedback am Ende des Artikels.

Profane Erklärung: OCR und seine Darstellung durch einige Unternehmen

Optical Character Recognition (OCR) ist im Grunde eine Technologie, die es Computern ermöglicht, gedruckten oder handgeschriebenen Text aus Bildern oder gedruckten Dokumenten zu „lesen“.

Stellen Sie sich vor, Sie haben ein Foto von einem Schild, auf dem steht „Geöffnet von 9 bis 18 Uhr“. Sie könnten Tesseract OCR verwenden, um diesen Text zu digitalisieren.

Hier ist der Befehl, den Sie in Ihrer Kommandozeile eingeben könnten, um Tesseract, siehe Installations Guide, zu verwenden (angenommen, das Bild heißt „schild.jpg“):

tesseract schild.jpg output

Dieser Befehl sagt Tesseract, das Bild „schild.jpg“ zu nehmen und den erkannten Text in eine Datei namens „output.txt“ zu schreiben.

Wenn Sie dann die resultierende Datei „output.txt“ öffnen, könnten Sie den folgenden Text sehen:

Geöffnet von 9 bis 18 Uhr

Dies ist nun ein ‚roher‘ Text, den Sie weiterverarbeiten können, zum Teil wird neben dem rohen Text noch die optische Position der Buchstaben zurückgegeben, siehe BoundingBox. Aber denken Sie daran, dass Tesseract (oder eine andere OCR-Software) nicht automatisch erkennt, dass es sich um Öffnungszeiten handelt oder dass „9 bis 18 Uhr“ spezifische Zeiten des Tages darstellt. Solche Interpretationen und Analysen gehen über die Grundfunktionen der reinen OCR hinaus.

Alsbald wurde OCR jedoch zum Wundermittel

Das ist die grundlegende Funktion von OCR. In den frühen Tagen der Technologie war das schon eine beachtliche Leistung, da es viel manuelle Arbeit ersparte und die Bearbeitung und Suche von Texten in digitaler Form ermöglichte.

Im Laufe der Zeit haben jedoch einige Unternehmen die Darstellung von OCR erheblich erweitert und es als eine Art Wundermittel für eine Vielzahl von Daten- und Dokumentenmanagement-Herausforderungen vermarktet. Sie haben „OCR“ als Lösung für Aufgaben wie Datenextraktion, Textanalyse, automatische Kategorisierung von Dokumenten und vieles mehr dargestellt.

In Wirklichkeit sind jedoch viele dieser erweiterten Funktionen nicht wirklich Teil der OCR-Technologie selbst, sondern das Ergebnis der Integration von OCR mit anderen Technologien wie künstlicher Intelligenz, maschinellem Lernen oder Natural Language Processing. So verwenden selbst neuere Modelle wie die Modelle von LayoutLM, R-CNN oder Pegasus immer OCR als Grundlage.

Jüngste Forschung stellt in Aussicht, dass OCR als Technologie als Bindeglied zwischen Bild und Textverarbeitung vollständig entfallen kann, siehe DONUT Paper.

Während diese erweiterten Lösungen zweifellos wertvoll sind und erhebliche Vorteile bieten können, ist es wichtig, sich daran zu erinnern, dass „OCR“ an sich nur ein Teil des Puzzles ist. Es ermöglicht Maschinen, Text zu „sehen“ und zu erkennen, aber die zusätzlichen Funktionen, die oft unter dem Begriff „OCR“ vermarktet werden, erfordern zusätzliche Technologien und Fähigkeiten.

Brauchen wir Fachbegriffe überhaupt noch?

Whatever you send it, AI breaks it all down into machine-digestible components of text, layout, image, page count, etc.

Dan Lucarini, Documents, content, files, records, semi-structured or unstructured data: do labels really matter anymore?

Ich schätze die etwas überspitzte Ausführung von Dan sehr. Wir müssen aber in einem bestimmten Punkt widersprechen. Insbesondere seine Aussage: Erstens, GPT und andere grundlegende LLMs kümmern sich nicht darum, welches generische Label wir für das ‚Zeug‘ verwenden, das wir ihm zum Verstehen und Analysieren gegeben haben. Ein KI-Modell unterscheidet nicht zwischen einem ’strukturierten‘, ‚halbstrukturierten‘ oder ‚unstrukturierten‘ Dokument/Inhalt/Daten/Datei; das ist eine menschliche Art, unser Zeug zu kategorisieren. Was auch immer Sie ihm senden, KI zerlegt es alles in maschinenverdauliche Komponenten aus Text, Layout, Bild, Seitenzahl usw.

Es ist richtig, dass Large Language Models (LLMs) wie GPT-3 Inhalte auf einer sehr grundlegenden Ebene verarbeiten können, jedoch sind sie nicht alleine in der Lage, komplexe Aufgaben wie die Seitensegmentierung oder eine tiefe, kontextbasierte Verarbeitung von Texten durchzuführen. LLMs sind ein mächtiges Werkzeug, aber sie sind nicht die einzige Lösung für alle Arten von Dokumentverarbeitung.

Klare Wortwahl und dennoch nicht simplifizieren!

Verschiedene Forschungen, insbesondere in der Seitensegmentierung, haben gezeigt, dass die beste Verarbeitungsqualität momentan durch die kontextuelle Aufteilung von Dokumenten erreicht wird. Dies bedeutet, dass das Modell nicht nur den Text selbst, sondern auch die Struktur und das Layout des Dokuments berücksichtigt. Die Nutzung des visuellen Kontexts hilft dabei, um das Dokument besser zu verstehen und zu verarbeiten. Eine Tabelle in einem Dokument ist zum Beispiel nicht nur eine Ansammlung von Fließtext, sondern ein klar strukturierter Informationsblock, der in einer bestimmten Weise interpretiert werden sollte.

Auch neuere LLMs können von einer kontextuellen Verarbeitung profitieren. Die reinen Textinformationen, die ein LLM verarbeitet, können durch Kontextinformationen wie „Dieser Text befindet sich in einer Tabelle“ erheblich verbessert werden. Das Verständnis des Kontexts kann das Modell dazu führen, den Text auf eine Weise zu interpretieren, die näher an der menschlichen Interpretation liegt.

Insgesamt sollten wir also die Bedeutung von fachlichen Konzepten nicht unterschätzen. Sie sind nicht nur eine menschliche Eigenart, sondern können auch dazu beitragen, KI-Modelle effektiver und präziser zu gestalten. Die Verarbeitung von „strukturierten“, „halbstrukturierten“ oder „unstrukturierten“ Dokumenten kann durchaus unterschiedlich sein und unterschiedliche Ergebnisse liefern. Abhängig von der genauen Methode, die zur Verarbeitung verwendet wird. Unterschiedliche Ansätze sind je nach Anwendungsszenario und spezifischen Anforderungen geeignet.

Schlussfolgerung

Vielleicht liegt die Lösung darin, die Fachbegriffe vollständig abzuschaffen, sondern darin, sie bewusster und sorgfältiger zu verwenden. Bildung und Verständnis sind hier Schlüsselwörter. Es liegt in unserer Verantwortung als Experten, sicherzustellen, dass wir nicht nur die richtigen Begriffe verwenden, sondern auch die Bedeutung hinter diesen Begriffen vermitteln.

So sehr wir Dans Kritik am übermäßigen Gebrauch von Fachbegriffen schätzen, glauben wir, dass der Vorschlag der KI die Aufteilung von Wissen und Kontext ganz zu überlassen, problematisch ist. Schließlich ist es unsere Aufgabe als Experten, komplexe Konzepte verständlich zu machen und dabei dennoch präzise und wissenschaftlich korrekt zu bleiben.

Lasst uns das Buzzword-Bingo vermeiden. Nur wissend verwendete Fachbegriffe schaffen Wissen und bleiben bedeutungsvoll. Auf diese Weise können wir sicherstellen, dass unsere Kommunikation in der Branche nicht nur präzise, sondern auch verständlich ist.

Doch auch unsere Redaktion hat bestimmt das ein oder andere Wort zu häufig verwendet und nicht genau definiert. Sofern Ihnen etwas auffällt, kontaktieren Sie uns und wir beheben ein mögliches Buzzword.

Über mich

Weitere Artikel

native ai

Native AI ersetzt naive AI zunehmend – Fachanwendungen statt Spielwiese

Die Morgendämmerung des digitalen Zeitalters hat begonnen. Mit ihr tritt eine künstliche Intelligenz (AI) in den Vordergrund, die so intuitiv...

Zum Artikel

Der unsichtbare Begleiter im Einkaufswagen – Embedded Insurance

In der Innovationsszene gewinnt ein disruptives Modell zunehmend an Bedeutung: das P2P-Modell, oder "Purchase to Protection", zu Deutsch: Vom Kauf...

Zum Artikel
Mohamed Amine Dhiab

Hallo, ich bin Mohamed Dhiab 👋

Ich bin ein erfahrener Ingenieur für maschinelles Lernen, wissenschaftlicher Mitarbeiter und Full-Stack-Entwickler mit einem Händchen für die Entwicklung innovativer technologischer...

Zum Artikel
Arrow-up