Lexikonseite

Annotationen in Dokumenten mit kostenlosen NLP Tools in 2021

Team Konfuzio

Welches Annotationstool ist das beste für Ihr nächstes Natural Language Processing Projekt, um Annotationen in Dokumenten zu ermöglichen?

Annotationen in Dokumenten bergen Herausforderungen

Viele Annotations Tools sind kostenlos verfügbar. Ein aktueller wissenschaftlicher Artikel stellt mehrere Dutzend vor. Wir ergänzen diesen wissenschaftlichen Artikel mit den Anforderungen im Unternehmenskontext an Tools für NLP Annotationen. Im zweiten Abschnitt werfen wir einen praktischen Blick auf einige der verfügbaren Tools.

Annotationen in verschiedenen Datenformaten

Ein Hacker News Artikel beschreibt die hohe Komplexität der PDF-Verarbeitung. Alle 700 Kommentare darunter spiegeln das Interesse an PDF-Dokumenten als Datenbasis für NLP-Training wider. Wer mehr über „What’s so hard about PDF text extraction?“, findet hier eine gute Übersicht. Man kann zusammenfassen, dass es für Unternehmensanwender schwierig ist, auf Text in PDFs oder Bildern zuzugreifen, um NLP Modelle zu trainieren.

Kontext durch Relationen von Annotationen

Erst das Verständnis von Abhängigkeiten führt in der Geschäftswelt zu einem Mehrwert durch NLP. Aus fachlicher Sicht reicht es oft nicht den Vornamen oder Nachnamen einer Person zu erkennen. Der Kontext dieser Person muss annotiert und später von der NLP gelernt werden. So ist es für das fachliche Verständnis wichtig, ob der Vorname des Verkäufers oder Käufers gemeint ist.

Dokumente annotieren im Team 

In Unternehmen tragen verschiedene Personen zu einem hochwertigen Datensatz bei. Schon bei der Datenerfassung stellen meist verschiedene Abteilungen oder Personen Daten zur Verfügung. Auch beim annotieren im NLP-Projekt unterstützen verschiedene Benutzer die NLP-Experten bei der Erstellung der NLP-Daten. Erfahrene Nutzer müssen die Annotation von weniger erfahrenen Nutzern überprüfen. Erfahrene Annotatoren sollten in der Lage sein, Annotationen von weniger erfahrenen Benutzern zu überarbeiten. Dieses Verfahren kann die Datenqualität verbessern und beschleunigt das organisationale Lernen.

Automatisierte Annotation in Dokumenten

Sobald ein Experte ein NLP-Modell trainiert hat, sollten Annotatoren es verwenden, um Zeit zu sparen. Annotatoren sollten das Modell nutzen, um neue Annotationen automatisch zu generieren. Anstatt neue Annotationen zu erstellen, sollten sie diese überprüfen. Automatisierte Annotationen helfen den Annotatoren, konzentriert zu bleiben und mehr Rohdaten zu annotieren. Vorgeschlagenen Annotationen verkürzen die Bearbeitungszeit von Rohdaten, da Menschen falsche Annotationen schneller korrigiert haben als als fehlende Annotationen hinzufügt. Selbst bei weniger genauen Modellen helfen Data Scientists beim manuellen erstellen guten Datensätze.

Visuelle Merkmale für bessere NLP nutzen

Im Gegensatz zu Tweets enthält die Position von Text innerhalb eines Geschäftsdokuments Informationen. Zum Beispiel sind die Telefonnummern der Ansprechpartner meist in der oberen rechten Ecke aufgeführt. Das Annotationstool sollte jede Textsequenz in eine Bounding Box und eine Seitenzahl umwandeln umwandeln können. Visuelle Positionen ergänzen die NLP-Features und erhöhen die Genauigkeit des Modells.

Kostenlose NLP Annotationstools im Jahr 2021

Die folgenden Tools sind kostenlos, browserbasiert und installierbar. Diese kostenlosen Annotations-Tools haben sich bereits für viele Data Scientists bewährt. Wir bei Konfuzio haben großen Respekt vor den Entwicklern, die diese Tools geschaffen haben. Dennoch werden wir diese Tools auf Basis der Anforderungen von Unternehmensanwendern hinterfragen. Wir haben alle Tools nach der Installation und Konfiguration getestet.

brat

Das Tool brat ist browserbasiert und erlaubt die Annotation von Textdateien. Es hebt Beziehungen zwischen Annotationen hervor. Das Setup erlaubt es, Annotationen mit hoher Komplexität innerhalb des Textes zu kennzeichnen. Beim Hochladen der Textdatei verliert der Text zumindest in der Oberfläche das Format. Auch das Annotieren von Text über mehr als eine Zeile führt oft zu Fehlern. Das Tool brat steht unter der MIT-Lizenz auf der eigenen Homepage zum Download bereit.

Doccano

Doccano ist ein browserbasiertes Annotationswerkzeug zum Kategorisieren, Übersetzen und Annotieren von Sequenzen. Die Einrichtung über Docker ermöglicht ein einfaches Deployment. Doccano ist auf GitHub unter der MIT-Lizenz verfügbar. Derzeit ist nur die Annotation von Textdateien möglich. Es ist nicht möglich, einzelne Annotationen zu gruppieren. Über die API ist es möglich, Annotationen automatisch hinzuzufügen. Leider können Benutzer nicht nach automatisierten vs. überarbeiteten Annotationen filtern. Dies macht eine manuelle Kontrolle von automatisch erstellen Annotationen so gut wie unmöglich.

INCEpTION

Als Nachfolger von WebAnno bietet INCEpTION eine ausgereifte, aber komplexe Lösung. Das aus der wissenschaftlichen Forschung stammende Tool bietet eine Dokumentation und eine Live-Demo. Um vertrauliche Daten zu hosten, kann die Anwendung auf einem eigenen Server eingerichtet werden. INCEpTION verwendet die Open-Source Apache License v2.0. Die Bearbeitung von PDF scheint über PDF.js möglich zu sein. Leider geht bei dieser Textkonvertierung mit dem PDF-Viewer das Layout im Text verloren. Annotationen können laut Dokumentation nicht automatisch erstellt werden.

PDFAnno

Mit dem Fokus, dem Benutzer das annotieren von PDFs zu ermöglichen, bietet dieses Tool ein Webinterface. Es kann immer nur ein Benutzer eine Annotation in einem Dokument erstellen. Die Zusammenarbeit mit anderen ist nur über den Import oder Export der Daten möglich. Das Tool setzt auf PDF.js auf, um das PDF darzustellen. Da PDF.js vor Beginn der Bearbeitung das gesamte PDF lädt, führt die Annotation größerer PDFs zu langen Ladezeiten. Das GitHub-Projekt (MIT-Lizenz) ist archiviert.

Alle Tools für Annotationen finden Sie hier.

NLP Annotationen in Dokumenten mit Konfuzio

Kostenlose Annotationstools sind großartig und fokussieren meist den einzelnen Endanwender, z. B. einen Data Scientist, der an einem NLP-Projekt alleine arbeitet. Im Unternehmenskontext bilden die Funktionen dieser Tools die Anforderungen nur sehr heterogen ab. Dies hat uns im Jahr 2018 dazu veranlasst, Konfuzio zu entwickeln. Unser Ziel ist es, Unternehmen in die Lage zu versetzen, NLP-Modelle schnell, auf beliebigen Datenquellen und kollaborativ zu erstellen. Gerne nehmen wir auch Rezensionen für andere Tools auf. Kontaktieren Sie uns gerne über [email protected]. Unser Tool für Annotationen in Dokumenten kombiniert die die optische Ebene und den Text. Dabei ist dies Annotationstool für NLP Modelle nur ein kleiner Teil unseres KI Software Studio.

FunktionbratDoccanoINCEpTIONPDFannoKonfuzio
Datenformate
Kontext
Team-First
Automatisierungggf.
Visuelle Merkmale
Annotationen in Dokumenten, Bildern und in Text erstellen Sie mit diesen Tools.

0 Kommentare

    Schreiben Sie einen Kommentar

    Weitere Artikel

    Vertragsanalyse mit KI

    Dr. Patrick Afflerbach, Vorstandsmitglied der 1:1 Assekuranzservice AG, berichtet über die Nutzung von Konfuzio Seit 2019 vertraut die 1:1 Assekuranzservice…

    Zum Artikel

    Die Krankenversicherung liest Patientenakten mit KI

    Verwaltungsmanagement und Zukunftspotenzial: Manuelle Gesundheitsprüfung bei gesetzlichen und privaten Krankenversicherungen war gestern - heute heißt das Stichwort künstliche Intelligenz! Krankenversicherung…

    Zum Artikel

    IT-Tage 2020

    Vom 7. bis 10. Dezember 2020 finden die IT-Tage zum ersten Mal als Remote-Konferenz statt. Die Konferenz richtet sich an…

    Zum Artikel

      Suchen Sie nach weiteren Informationen?

      Gerne können Sie uns auch eine E-Mail an [email protected] senden, uns telefonisch unter +49 6441 8994005 kontaktieren oder direkt ein Meeting buchen.
      Arrow-up