Dokumentenklassifikation

Klassifikation von Dokumenten mit KI für Ihre Dokumentenverwaltung

Team Konfuzio

Dokumentenverwaltung online implementieren

In diesem Tutorial geht es um die Klassifikation von Dokumenten mit KI. Hierbei geht es im Gegensatz zu Tutorial 1, 2 oder 3 nicht um das Extrahieren von Informationen aus einem Dokument, sondern um das automatisierte Verschlagworten von Dokumenten in bestimmte vorher definierte Kategorien. Dies kann zur Ablage und zu Optimierung ihrer Dokumentenverwaltung und der Back Office Aufgaben verwendet werden. 

Wie Sie dies in einem KI Projekt Ihrer Dokumentenverwaltung online implementieren können, zeigen wir Ihnen wie immer an einem praktischen Beispiel. Wir verwenden hierzu wieder Quittungen. Wie auch schon in Tutorial 1 und 2 beziehen wir unsere Dokumente aus einem öffentlichen Datensatz, auf den Sie hier zugreifen können. Unser Ziel ist es, Quittungen in fünf Branchen (Café, Restaurant, Hotel, Retail und Public Transport) zu klassifizieren. Ohne Regeln anzulegen lernt die KI an Beispielen, zu welcher der Branchen neue Quittungen gehört.

In dieser Dokumentation sind manche Elemente als Beta markiert. Sollte einer dieser Funktionen noch nicht bedienbar sein, kontaktieren Sie uns über unser Kontaktformular. Unser Support kümmert sich umgehend um Ihr Problem und das natürlich kostenfrei.


KI trainieren, um Dokumente zu kategorisieren bzw. zu verschlagworten

  1. Projekt erstellen

    Sie können ein neues Projekt erstellen oder ein bestehendes verwenden. Falls Sie ein Neues erstellen wollen, können Sie in Tutorial 1 noch einmal nachsehen, wie man ein Projekt erstellt.

  2. Kategorisierung aktivieren (Beta)

    Aktivieren Sie mit einem Häkchen die Funktion “Enable Categorization” in den Projekteinstellungen, zu der Sie gelangen wenn Sie in der Projektansicht auf ihr Projekt klicken.

  3. Default Templates erstellen

    Für jede Dokumentenkategorie ist nun ein Default Template erforderlich. Dies ist ein Template, welches keinem sogenannten “Parent Default Template” untergeordnet ist. Dies erstellen Sie über HOME > Templates > ADD DEFAULT TEMPLATE+. Hier müssen Sie nur den Namen Ihrer Kategorie (Hier: “Café”, “Restaurant”, “Hotel”, “Retail” und “Public Transport”) eingeben und Ihr Projekt auswählen. Wenn Sie wie wir mehrere Default Templates erstellen möchten, sollte Sie dies wieder über die Templateansicht und dem Button ADD DEFAULT TEMPLATE+ machen.

  4. Erstellen von Trainingsdaten

    Klicken Sie nun auf DOCUMENTS um auf die Dokumentenansicht zu gelangen. Hier können Sie Ihre schon bestehende Dokumente verwenden oder aber neue hochladen. Das Training der KI ist besonders einfach wenn der Dateiname zu erkennen gibt, zu welcher Kategorie dieses Dokument gehört. Nun zeigen wir der KI, welche Dokumente zu welcher Kategorie gehören. Dies tun wir, indem wir die entsprechende Kategorie im jeweiligen Reiter der Dokumente in der Spalte “CATEGORY TEMPLATE” auswählen und rechts unten auf den Button “Save” klicken. Es ist möglich, alle Dokumente auf einer Seite die jeweilige Kategorie zuzuweisen und für alle abschließend auf “Save” zu klicken. Dieses Vorgehen ist nur möglich, wenn sich die Dokumente nicht im Trainings-, Test- oder Preparationdatensatz befinden. Sollte dies jedoch der Fall sein, sollten Sie die Dokumente mit der Aktion “Remove from dataset” zuerst aus dem Datensatz entfernen, um ihnen danach die Kategorie zuzuweisen. Nachdem Sie mit diesem Schritt fertig sind, fügen Sie die Dokumente wieder dem Trainingsdatensatz hinzu.
    Um hochwertige, zur Dunkelverarbeitung geeignete, Ergebnisse zu erzielen, sollten Sie mindestens 50 Dokumente pro Kategorie haben. Mit unseren 5 Kategorien nutzen wir also einen Trainingsdatensatz, der aus 250 Dokumenten besteht. Weitere Dateien können Sie dem Testdatensatz hinzufügen, um das KI Modell später zu evaluieren (Beta). Es ist sehr wichtig, dass sich hier die Dokumente auf keinen Fall überschneiden. Sollten Sie eine Datei haben, in der sich mehrere Dokumentenkategorien befinden, ist es von ausschlaggebender Bedeutung, dass Sie diese vorher splitten und einzeln hochladen, um ihnen dann jeweils einzeln die Kategorie zuzuteilen.

  5. Retraining aktivieren

    Das Retraining aktivieren Sie über HOME > Projects. Markieren Sie hier Ihr Projekt und wählen Sie die Aktion “Retrain category ai model” im Action-Reiter und klicken Sie danach auf “Go”.
    Die KI wird nun lediglich anhand der Zuordnung nach Mustern, Gemeinsamkeiten und Unterschieden zwischen den Kategorien suchen. Mehr hierzu erfahren Sie in unserem Artikel über die technischen Aspekte der Klassifikation.

  6. Test

    Um zu sehen, ob Ihr Category AI Model fertig trainiert ist, klicken Sie auf HOME> “Category ai model”. Hier können Sie außerdem eine statistische Evaluation Ihres KI-Modells sehen (Beta). Des Weiteren können Sie testweise einfach neue Dokumente hochladen, um zu sehen, ob sie korrekt klassifiziert werden. Hier sollte die KI schon automatisch die richtige Kategorie in der Spalte “CATEGORY TEMPLATE” anzeigen. In unserem Projekt sollte die KI beispielsweise automatisch eine hochgeladene Hotelrechnung in die Kategorie “Hotel” einteilen.

  7. Export

    Den Einsatz von Klassifikation können Sie vielseitig in das Wissensmanagement Ihres Unternehmens integrieren.
    Zum einen erlaubt es Ihnen die Dokumentenverwaltung online, indem Sie auf der rechten Seite der Dokumentenansicht nach Kategorien filtern können. Dadurch ist es sehr leicht, beispielsweise nur die Inhalte einer bestimmten Dokumentenkategorie zu exportieren.
    Außerdem wird die Kategorie auch im CSV Export angezeigt. Dies ergibt, wenn Sie beispielsweise die Daten aller Dokumente exportieren, ein nach Kategorien sortiertes Dateiverzeichnis für Ihre Dokumentenverwaltung mit Excel. Selbstverständlich können Sie die Klassifikation auch durch eine API-Einbindung in Ihre bestehenden Systeme (z. B. von SAP) integrieren und an Ihr Input Management anpassen. Dies ermöglicht die korrekte Ablage Ihrer Dokumente zu organisieren und birgt hohes Potenzial für Ihre Back Office Tätigkeiten.


Noch Fragen? Wir arbeiten stetig daran, unsere Anleitungen zu verbessern, damit Sie möglichst schnell und einfach Konfuzio nutzen können. Bitte lassen Sie uns wissen, wenn Fragen offen geblieben sind, damit wir Ihnen die bestmögliche Lösung anbieten können. Danke!

Foto von Karolina Grabowska von Pexels

Weitere Artikel

AI Random Forrest

Datenextraktion aus Dokumenten – How To I

So starten Sie Ihr Projekt mit Konfuzio Um die Grundlagen der Konfuzio-Plattform kennenzulernen, empfehlen wir Ihnen dieses Tutorial, in dem…

Zum Artikel
Kerninformationen

Datenextraktion aus Dokumenten – How To III

Einheitliche Trainingsdaten: Theorie und Praxis Nachdem Sie die Grundlagen in Anleitung 1 und Sektionen in Anleitung 2 kennengelernt haben, sollten…

Zum Artikel
Einzelinformationen aus Dokumenten extrahieren

Datenextraktion aus Dokumenten – How To II

So optimieren Sie Ihr Projekt durch die Nutzung von Templates Nachdem Sie in der ersten Anleitung die Grundlagen kennenlernen konnten,…

Zum Artikel

    Suchen Sie nach weiteren Informationen?

    Kontaktieren Sie uns direkt über das Formular.

    Arrow-up