Als Data Scientist oder Annotation Manager stehen Sie vielleicht vor folgendem Problem: Sie wollen aus einer Masse von PDFs oder anderen Dokumenten bestimmte Daten extrahieren oder granulare Daten für das Training von optischer oder semantischer KI erzeugen. Ein Labeling Tool kann semantische Entitäten wie „Preis“, „Verkäufer“ oder „Steuer“ wollen Sie gezielt ansteuern und auslesen. Mit Konfuzio ist es möglich, solche NLP-Anwendungen (Natural Language Processing) mit CV Labeling (Computer Vision) von Bildern verbinden. Ob es sich um Quittungen, Verträge, Finanzdokumente oder Rechnungen usw. handelt: Automatisierte Datenextraktion via KI wird die Effizienz und Produktivität Ihres Unternehmens zu einem Bruchteil der Kosten steigern.
Diese erstaunliche Leistung ist jedoch ohne Textannotation nicht möglich. Die Analyse strukturierter Dokumente wie Rechnungen, Quittungen und Verträge ist auch für moderne KI ein komplizierteres Unterfangen. Hierzu benötigen Sie ein Labeling Tool, mit dem der User einzelne Bereiche eines Dokuments gezielt mit einem Label versehen und extrahieren kann. Konfuzio bietet für die Extraktion von Daten aus Texten und Bildern ein All-in-One Labeling Tool.
Dieser Artikel wurde auf Deutsch verfasst und redaktionell überprüft. Weitere Sprachen stehen als automatische Übersetzung zur Verfügung. Wir freuen uns über Feedback am Ende des Artikels.
Model-centric vs. data-centric
Wenn Sie an Data-Science-Projekten gearbeitet haben, kennen Sie vielleicht einige der Schritte einer typischen ML-Modellerstellung. Diese sahen bisher so aus:
- Sammeln von Daten
- Daten bereinigen
- mehrere Modelle ausprobieren
- Abstimmen der Modellparameter
- Überführung in die Produktion
- Überwachen des Modells
Das Hauptaugenmerk lag auf dem dritten und vierten Schritt. ML-Modelle standen im Vordergrund. Dem Datenteil widmete die Data Science wenig bis gar keine Zeit. Im „Model-Centric Approach“ haben die Fortschritte bei der Speicherung und der Rechenleistung zur Entwicklung der modernen Algorithmen geführt. Der grundlegendste Teil des Prozesses wurde dabei vernachlässigt – die Daten selbst.
Daten für ML-Algorithmen sind wie Nahrung für uns Menschen. Daher müssen wir unseren Algorithmen die bestmögliche Datenqualität zur Verfügung stellen, um die beste Leistung zu erzielen. Der datenzentrierte Ansatz konzentriert sich in erster Linie auf die Bereitstellung von Qualitätsdaten. Das bedeutet, dass wir uns nicht nur auf die Auswahl der Algorithmen konzentrieren, sondern auch Zeit auf die Erfassung und Kommentierung von Daten, die Korrektur falsch beschrifteter Daten, die Erweiterung von Daten und die Skalierung dieser Art von Prozessen verwenden müssen. Diese Aufgaben meistern Sie mit den Tools zum Annotieren und Labeln von Konfuzio.
Was ist ein Annotation Tool?
Vielleicht haben Sie schon einmal einen Online-Übersetzer wie Google Translate oder Deepl verwendet. Solche Anwendungen nutzen NLP (Natural Language Processing). Diese KI-Technologie hilft Maschinen menschliche Sprache zu verstehen, damit beispielsweise Übersetzungen oder eine automatische Rechtschreibprüfung möglich sind. NLP ist für die Informationssuche in unstrukturierten Texten weit verbreitet. Die Analyse von strukturierten Dokumenten wie Rechnungen, Quittungen und Verträgen jedoch ist etwas komplizierter.
Erstens gibt es nicht viel Kontext im Umfeld der Bereiche eines Dokuments, das wir extrahieren wollen. Einzelne Entitäten eines Dokuments wie z.B. Preis, Verkäufer oder Steuer stehen meist allein und ohne weiteren Text im direkten Umfeld da. Dies wäre jedoch zum Trainieren eines NLP-Modells hilfreich. Zweitens ändert sich das Layout der Dokumente häufig von einer Rechnung zur anderen. Dies führt dazu, dass herkömmliches NLP bei strukturierten Dokumenten schlecht funktioniert.
Da die meisten Quittungen und Rechnungen gescannt oder im PDF-Format vorliegen, brauchen wir ein Labeling Tool, das OCR-Parsing und Anmerkungen (Annotationen) direkt auf nativen PDFs und Bildern ermöglicht. Eine Anmerkung bezieht sich auf ein Zeichen, ein Wort oder einen Absatz, der aus einem Dokument extrahiert wurde. Damit trainieren Sie die KI darauf, ihre Dokumente korrekt zu extrahieren. OCR bedeutet „optical character recognition“. Mit dieser Technologie kann ein Computer Text erkennen und extrahieren. Leider sind die meisten Labeling Tools, die OCR-Kommentare unterstützen, entweder exorbitant teuer oder unvollständig, sodass Sie den OCR-Schritt vor der Annotation extern durchführen müssen. Bei Konfuzio jedoch bekommen Sie eine All-in-One-Lösung.
Labeling Tool von Konfuzio – die End-to-End-Lösung
Konfuzio bietet eine End-to-End-Lösung, mit der Sie native PDF-Dateien, gescannte Bilder oder Bilder von Ihrem Smartphone direkt mit Anmerkungen versehen können, ohne dass die Informationen zum Dokumentenlayout verloren gehen. Schließlich sind beispielsweise bei der Rechnungsextraktion die Textreihenfolge und räumliche Informationen gleichermaßen wichtig. Alles, was Sie tun müssen, ist, Ihr PDF, JPG oder PNG direkt hochzuladen und mit den Anmerkungen zu beginnen. Mit Hilfe hochmoderner OCR-Technologie analysiert Konfuzio den Text oder die Handschrift Ihrer Dokumente und extrahiert alle Token mit ihrem Begrenzungsrahmen. Konfuzio ist ihr All-in-One-Werkzeug für das automatische Verarbeiten von Dokumenten. Sie benötigen keine zusätzlichen Anwendungen.
Wie Sie mit dem Konfuzio Annotation Tool PDFs und andere Dokumente mit Annotationen versehen
- Stellen Sie dem Datenbeschriftungsteam die richtigen Werkzeuge zur Verfügung
Das Konfuzio Data Labeling Tool bietet sowohl für Texte als auch Bilder die richtige Lösung. Bei der Beschriftung von Datensätzen aus verschiedenen Quellen oder in verschiedenen Formaten kann eine Datenbeschriftungslösung, die alle verschiedenen Dateiformate unterstützt, die Arbeit der Datenbeschrifter erleichtern.
Neben den Funktionen Ihrer Datenbeschriftungstools sollten diese auch über eine optimierte und intuitive Benutzeroberfläche verfügen. Nur so bleibt in verschiedenen Datenkontexten die Übersicht erhalten. - Erstellen Sie eine Annotation
Sie können eine Anmerkung (Annotation) erstellen, indem Sie auf einen rechteckigen Bereich klicken und den Cursor darüber ziehen. Wenn Sie die Anmerkung speichern, erkennt Konfuzio den Text innerhalb des ausgewählten Feldes.
Wenn Sie erneut auf Bearbeiten klicken, sehen Sie den roten Rahmen, mit dem Sie den Text ausgewählt haben, den Sie verschieben und in der Größe verändern können. Wenn Sie einen Bereich auswählen, der keinen Text enthält, stellt die rote Box die sogenannte Bounding Box dar, die für das KI-Training verwendet wird. Wenn Sie eine feinere Kontrolle über die Auswahl bevorzugen, können Sie auch eine Anmerkung erstellen, indem Sie die Wörter, die Sie auswählen möchten, einzeln anklicken. Wenn Sie erneut auf „Bearbeiten“ klicken, sehen Sie den roten Kasten, der zur Auswahl des Textes verwendet wurde und den Sie verschieben und in der Größe verändern können. - Labeln Sie die Annotationen.
Nachdem die Annotation erstellt wurde, klicken Sie auf „Annotations“. Dort sehen sie alle Annotationen zusammengefasst. Wenn Sie auf die Anmerkung klicken, werden Sie zu dem Dokument und der gerade erstellten Anmerkung weitergeleitet. Außerdem können Sie auf den Link zum Label klicken. Im folgenden Beispiel wird jede Anmerkung des Labels „Änderungsdatum“ als Datumswert bezeichnet. Nachdem Sie die Beschriftung gespeichert haben, können Sie eine Vorschau des Ergebnisses auf der Seite mit den Anmerkungen sehen.
- Automatisieren Sie den Annotationsprozess
Nachdem eine Extraktions-KI trainiert und bewertet wurde, erstellt diese Anmerkungen in allen Dokumenten, die dem Test- und Trainingsdatensatz zugeordnet sind. Dies ist besonders hilfreich, wenn Sie es versäumt haben, Informationen in einem Dokument zu annotieren, dies aber in anderen Dokumenten getan haben.
Sobald die Anmerkung erstellt ist, hat sie den Status „Feedback erforderlich“. Wenn Sie ein grünes Kästchen oder ein rotes Kreuz sehen, können Sie ein Feedback geben, siehe 1. Innerhalb eines Dokuments können Sie den Filter verwenden, um alle Anmerkungen zu sehen, die ein Feedback durch Menschen erfordern, siehe 2.
Konfuzio – ihr All-in-One-Werkzeug für Datenextraktion
Mit der benutzerfreundlichen Konfuzio API können Sie ohne großen Aufwand NLP-Modelle trainieren. Es ist nicht notwendig, ihre Bilder vorher mit externen APIs zu verarbeiten oder Regeln zur Vorannotation hinzuzufügen. Der User lädt einfach seine Dokumente hoch, beschriftet und exportiert sie.
Ihre Vorteile:
- NER Labeling: Identifizieren und Labeln von Schlüsselinformationen in Texten
- Image und Document Classification: Dokumenten und Bildern Kategorien zuweisen, um deren Verwaltung, Suche, Filterung oder Analyse zu erleichtern
- Bounding Box Image Labeling: Identifizieren und lokalisieren Sie Objekte in Bildern.
- Nutzermanagement: Wichtig für äußerst sensible Daten und große Teams in regulierten Firmen. Kann als SaaS und On-Premises Installation betrieben werden.
- Einzigartig: Konfuzio kombiniert das Visuelle mit dem Semantischen in einem UI (User Interface). Für CV (Computer Vision) und NLP (Natural Language Processing) brauchen Sie von nun an keine separaten Tools mehr.

Data Labeling identifiziert und versieht Rohdaten (Bilder, Textdateien, Videos usw.) mit einer oder mehreren aussagekräftigen und informativen Beschriftungen. Dies erschafft einen Kontext, damit eine KI (künstliche Intelligenz) daraus lernen kann. Die Kennzeichnungen können beispielsweise angeben, ob eine Rechnung Angaben wie „Datum“, „Preis“ oder „Verkäufer“ enthält. Die Kennzeichnung von Daten ist auch für eine Vielzahl von anderen Anwendungsfällen erforderlich, darunter die Verarbeitung natürlicher Sprache und Spracherkennung.
Die Anpassung an Ihre geschäftlichen Anforderungen verschafft Ihnen einen Vorteil gegenüber Ihren Mitbewerbern. Ein Labeling Tool macht dies möglich, indem es die automatisierte Entscheidungsfindung verbessert. Indem Sie ihre Datenextraktion automatisieren, benötigen Sie nur noch ein Minimum an menschlichen Eingriffen, um wichtige Entscheidungen zu treffen.
Computer Vision ist ein Feld innerhalb der künstlichen Intelligenz (KI), dass es Computern und Systemen ermöglicht, aussagefähige Informationen aus digitalen Bildern, Videos und anderen visuellen Eingaben zu gewinnen – und auf Grundlage dieser Informationen Maßnahmen zu ergreifen oder Empfehlungen abzugeben. Wenn KI Computern das Denken ermöglicht, ermöglicht Computer Vision ihnen das Sehen, Beobachten und Verstehen.
Natural Language Processing (NLP) versucht, natürliche Sprache zu erfassen und mithilfe von Regeln und Algorithmen computerbasiert zu verarbeiten. NLP verwendet hierfür verschiedene Methoden und Ergebnisse aus den Sprachwissenschaften und kombiniert sie mit moderner Informatik und künstlicher Intelligenz. Ziel ist es, eine möglichst weitreichende Kommunikation zwischen Mensch und Computer per Sprache zu schaffen. Dadurch sollen sich sowohl Maschinen als auch Anwendungen per Sprache steuern und bedienen lassen.