Dieser Artikel wurde auf Deutsch verfasst und redaktionell überprüft. Weitere Sprachen stehen als automatische Übersetzung zur Verfügung. Wir freuen uns über Feedback am Ende des Artikels.
Dokumentenverwaltung online implementieren
In diesem Tutorial geht es um die Klassifikation von Dokumenten mit KI. Hierbei geht es im Gegensatz zu Tutorial 1, 2 oder 3 nicht um das Extrahieren von Informationen aus einem Dokument, sondern um das automatisierte Verschlagworten von Dokumenten in bestimmte vorher definierte Kategorien. Dies kann zur Ablage und zu Optimierung ihrer Dokumentenverwaltung und der Back Office Aufgaben verwendet werden.
Wie Sie dies in einem KI Projekt Ihrer Dokumentenverwaltung online implementieren können, zeigen wir Ihnen wie immer an einem praktischen Beispiel. Wir verwenden hierzu wieder Quittungen. Wie auch schon in Tutorial 1 und 2 beziehen wir unsere Dokumente aus einem öffentlichen Datensatz, auf den Sie hier zugreifen können. Unser Ziel ist es, Quittungen in fünf Branchen (Café, Restaurant, Hotel, Retail und Public Transport) zu klassifizieren. Ohne Regeln anzulegen lernt die KI an Beispielen, zu welcher der Branchen neue Quittungen gehört.
In dieser Dokumentation sind manche Elemente als Beta markiert. Sollte einer dieser Funktionen noch nicht bedienbar sein, kontaktieren Sie uns über unser Kontaktformular. Unser Support kümmert sich umgehend um Ihr Problem und das natürlich kostenfrei.
KI trainieren, um Dokumente zu kategorisieren bzw. zu verschlagworten
- Projekt erstellen
Sie können ein neues Projekt erstellen oder ein bestehendes verwenden. Falls Sie ein Neues erstellen wollen, können Sie in Tutorial 1 noch einmal nachsehen, wie man ein Projekt erstellt.
- Default Templates erstellen
Für jede Dokumentenkategorie ist nun ein Default Template erforderlich. Dies ist ein Template, welches keinem sogenannten “Parent Default Template” untergeordnet ist. Dies erstellen Sie über HOME > Templates > ADD DEFAULT TEMPLATE+. Hier müssen Sie nur den Namen Ihrer Kategorie (Hier: “Café”, “Restaurant”, “Hotel”, “Retail” und “Public Transport”) eingeben und Ihr Projekt auswählen. Wenn Sie wie wir mehrere Default Templates erstellen möchten, sollte Sie dies wieder über die Templateansicht und dem Button ADD DEFAULT TEMPLATE+ machen.
- Erstellen von Trainingsdaten
Klicken Sie nun auf DOCUMENTS um auf die Dokumentenansicht zu gelangen. Hier können Sie Ihre schon bestehende Dokumente verwenden oder aber neue hochladen. Das Training der KI ist besonders einfach wenn der Dateiname zu erkennen gibt, zu welcher Kategorie dieses Dokument gehört. Nun zeigen wir der KI, welche Dokumente zu welcher Kategorie gehören. Dies tun wir, indem wir die entsprechende Kategorie im jeweiligen Reiter der Dokumente in der Spalte “CATEGORY TEMPLATE” auswählen und rechts unten auf den Button “Save” klicken. Es ist möglich, alle Dokumente auf einer Seite die jeweilige Kategorie zuzuweisen und für alle abschließend auf “Save” zu klicken. Dieses Vorgehen ist nur möglich, wenn sich die Dokumente nicht im Trainings-, Test- oder Preparationdatensatz befinden. Sollte dies jedoch der Fall sein, sollten Sie die Dokumente mit der Aktion “Remove from dataset” zuerst aus dem Datensatz entfernen, um ihnen danach die Kategorie zuzuweisen. Nachdem Sie mit diesem Schritt fertig sind, fügen Sie die Dokumente wieder dem Trainingsdatensatz hinzu.
Um hochwertige, zur Dunkelverarbeitung geeignete, Ergebnisse zu erzielen, sollten Sie mindestens 50 Dokumente pro Kategorie haben. Mit unseren 5 Kategorien nutzen wir also einen Trainingsdatensatz, der aus 250 Dokumenten besteht. Weitere Dateien können Sie dem Testdatensatz hinzufügen, um das KI Modell später zu evaluieren (Beta). Es ist sehr wichtig, dass sich hier die Dokumente auf keinen Fall überschneiden. Sollten Sie eine Datei haben, in der sich mehrere Dokumentenkategorien befinden, ist es von ausschlaggebender Bedeutung, dass Sie diese vorher splitten und einzeln hochladen, um ihnen dann jeweils einzeln die Kategorie zuzuteilen. - Retraining aktivieren
Das Retraining aktivieren Sie über HOME > Projects. Markieren Sie hier Ihr Projekt und wählen Sie die Aktion “Retrain category ai model” im Action-Reiter und klicken Sie danach auf “Go”.
Die KI wird nun lediglich anhand der Zuordnung nach Mustern, Gemeinsamkeiten und Unterschieden zwischen den Kategorien suchen. Mehr hierzu erfahren Sie in unserem Artikel über die technischen Aspekte der Klassifikation. - Test
Um zu sehen, ob Ihr Category AI Model fertig trainiert ist, klicken Sie auf HOME> “Category ai model”. Hier können Sie außerdem eine statistische Evaluation Ihres KI-Modells sehen (Beta). Des Weiteren können Sie testweise einfach neue Dokumente hochladen, um zu sehen, ob sie korrekt klassifiziert werden. Hier sollte die KI schon automatisch die richtige Kategorie in der Spalte “CATEGORY TEMPLATE” anzeigen. In unserem Projekt sollte die KI beispielsweise automatisch eine hochgeladene Hotelrechnung in die Kategorie “Hotel” einteilen.
- Export
Den Einsatz von Klassifikation können Sie vielseitig in das Wissensmanagement Ihres Unternehmens integrieren.
Zum einen erlaubt es Ihnen die Dokumentenverwaltung online, indem Sie auf der rechten Seite der Dokumentenansicht nach Kategorien filtern können. Dadurch ist es sehr leicht, beispielsweise nur die Inhalte einer bestimmten Dokumentenkategorie zu exportieren.
Außerdem wird die Kategorie auch im CSV Export angezeigt. Dies ergibt, wenn Sie beispielsweise die Daten aller Dokumente exportieren, ein nach Kategorien sortiertes Dateiverzeichnis für Ihre Dokumentenverwaltung mit Excel. Selbstverständlich können Sie die Klassifikation auch durch eine API-Einbindung in Ihre bestehenden Systeme (z. B. von SAP) integrieren und an Ihr Input Management anpassen. Dies ermöglicht die korrekte Ablage Ihrer Dokumente zu organisieren und birgt hohes Potenzial für Ihre Back Office Tätigkeiten.
Noch Fragen? Wir arbeiten stetig daran, unsere Anleitungen zu verbessern, damit Sie möglichst schnell und einfach Konfuzio nutzen können. Bitte lassen Sie uns wissen, wenn Fragen offen geblieben sind, damit wir Ihnen die bestmögliche Lösung anbieten können. Danke!
Foto von Karolina Grabowska von Pexels