Texterkennung dank Online-OCR Lösungen effizient nutzen

Daniel Weißmann

Es ist kein allzu typisches Bild mehr, aber es gibt sie noch: die Bankkunden, die einen Überweisungsträger ausfüllen und bei der Bank einreichen. Die Daten dieser Formulare werden schon längst nicht mehr von Bankangestellten manuell in das interne System eingegeben. So wie die Verarbeitung der Dokumente selbst, so erfolgt auch das Einlesen dieser Formulare automatisiert. Diese Technologie nennt sich OCR, Optical Character Recognition oder optische Zeichenerkennung. Für Branchen mit hohem Verarbeitungsvolumen lohnt sich die Implementierung solcher Lösungen. Aber wie steht es mit Unternehmen ohne Entwicklungsabteilung oder abweichendem Unternehmensschwerpunkt? Hier kommen Online OCR Lösungen ins Spiel.

Online OCR Lösungen im Überblick

Die Verwendung von Texterkennung erfolgt oft subtil, als unterstützende Funktion innerhalb komplexerer Prozesse. Dabei ist OCR für Kunden wie auch für interne Prozesse innerhalb der Unternehmen relevant.

Online-Texterkennung für Verbraucher

Als technikaffine Verbraucher stehen die Chancen am höchsten, bereits einmal online OCR Anwendungen genutzt zu haben. Dies ist z.B. der Fall, wenn man Daten aus Bildern oder PDF Dateien schnell in eine Form bringen möchte, die es ermöglicht, mit diesen Daten weiterzuarbeiten, für die Haushaltbuchhaltung, Ahnenforschung oder andere Hobbies. Hier bieten Onlineplattformen die schnellste Möglichkeit, Text und Daten aus dem Dokument auszulesen. Der Nutzer muss keine Software auf seinem Rechner installieren und kann oft aus diversen Ausgabeformaten wählen. So können PDF Dateien, je nach Layout und Inhalt, nach Excel oder Word umgewandelt werden. Auch Bilddateien wie JPG oder TIFF lassen sich verwenden. Die Dateien werden dazu zum Umwandeln auf die ausgewählte Plattform hochgeladen. Die Verarbeitung erfolgt dann auf dem Server des Anbieters. Sobald die Ausgabedatei fertig ist, z.B. eine Excel Datei, kann der Nutzer diese herunterladen.

OCR im Unternehmen einbinden

Für Unternehmen ergeben sich oft andere Anforderungen. Hier ist ein manuelles Verfahren mit öffentlichen Plattformen keine zuverlässige Methode für die Onlineverarbeitung. Viel wichtiger ist hingegen, dass die OCR-Verarbeitung in die vorhandenen Prozesse des Unternehmens integriert ist. Zu diesem Zweck gibt es technische Schnittstellen, kurz APIs, zu den Anbietern von OCR Leistungen im Netz. Die API erlaubt den Softwareanwendungen im Unternehmen dann, direkt online auf die OCR Dienstleistungen zuzugreifen.

Ein Beispiel hierfür sind eingehende Rechnungen. Diese kommen direkt als PDF per E-Mail in das Postfach des Unternehmers. Genauso kann die Rechnung noch klassisch in Papierform empfangen werden. Bei Papierrechnungen werden alle Seiten eingescannt, um sie in ein digitales JPG, PNG oder TIFF Bild zu konvertieren. Danach ist der Prozess für beide Fälle wieder gleich. Durch die API können die Dokumente automatisiert an den Onlinedienst zur Textverarbeitung weitergeleitet werden. Die konvertierten Dateien werden dann direkt weiterverarbeitet, um z.B. Kontodaten, Preislisten oder Empfängerdetails auszulesen.

Ein Word Dokument kann auch als Basis für neue Inhalte dienen. Und wurde z.B.ein JPG Bild verwendet, können Bildinformationen direkt für Annotationen, Titel oder Bildbeschreibungen für die Darstellung im Internet genutzt werden.

Vorteile der Onlinelösungen

Es ergeben sich einige Vorteile aus dem Ansatz, OCR Aufgaben online zu delegieren. Es beginnt mit der Infrastruktur. Die komplexe Verarbeitung, gerade bei hohen Dokumentenaufkommen, erfordert zusätzliche Hardware im Unternehmen. Die Hardware, wie auch die Software selbst, muss regelmäßig gewartet und aktualisiert werden. Dies erfordert zusätzliche Belastungen für das IT-Team oder die Notwendigkeit, zusätzliches Personal oder Dienstleister zu engagieren.

Mit In-house Lösungen sind auch Leistungsspitzen schwerer abzufangen. Sollte kurzzeitig mehr Rechenleistung notwendig sein, können Unternehmer interne Ressourcen nur langsam aufbauen. Online OCR Lösungen arbeiten mit variablen Ressourcen und können durch moderne Cloud-Architekturen umgehend auf höhere Anforderungen reagieren. Softwareupdates, Verbesserungen der OCR-Algorithmen etc. stehen den Nutzern der Onlinedienste ohne manuelle Updates sofort zur Verfügung.

Soll ich Open-Source oder kommerzielle OCR Lösungen nutzen

Für kleinere und mittlere Unternehmen stellt sich vordergründig die Frage, ob für die OCR-Lösung eine frei nutzbare Open-Source Software ausreicht. Oder ist eine kommerzielle Plattform der effizientere Weg. Hier kommt es stark auf die Kompetenzen innerhalb des Unternehmens an. Open-Source OCR Lösungen wie Tesseract ziehen keine Anschaffungskosten für die Software selbst nach sich. Ob PDF oder Bild, viele Formate können ausgelesen werden und viele Sprachen werden erkannt. Allerdings erfordert es technische Expertise, diese als Onlinekomponente in die vorhandene IT-Infrastruktur einzubinden. Ein technischer Support wird nicht angeboten, es finden sich aber Anleitungen und Dokumentationen im Internet. IT-Administratoren können damit die Einrichtung für das Unternehmen durchführen.

Kommerzielle Anbieter bieten hingegen direkten Kundenservice an. Auch sind Hardwarenutzung und Cloudanbindung für die Software oft schon enthalten. Hier lohnt sich ein genauer Vergleich der Leistungen und der Preise unter den Anbietern. Man sollte sich fragen:

  • Bietet die Onlinelösung alle OCR Funktionen die ich benötige?
  • Wie leicht lässt sich die API in mein System einbinden?
  • Kann ich die API der Plattform für meine etablierten Eingabeformate verwenden (nutzte ich eher PDF Dateien oder Bilder, eher langen Text oder komplexe Formulare)?
  • Können die Tools meine Dokumente in die benötigten Ausgabeformate (Excel, Word, JSON, XML etc.) konvertieren?
  • Erlaubt sie, mit zukünftigen Wachstumsaussichten mitzuhalten?
  • Zahle ich eventuell für viele Leistungen, die ich nie benötigen werde?

Durch diese Analyse können relevante Kandidaten ausgewählt werden.

Auch online die Sicherheit der OCR Lösung beachten

Trotz aller Vorteile ist es wichtig, die Sicherheit nicht zu vergessen. In vielen Fällen werden sensible Daten online übermittelt. Bei der Wahl eines Anbieters muss großes Augenmerk auf die Art der Übertragung der Daten gelegt werden. Schließlich kann ein PDF oder Bild sehr persönliche Daten enthalten. Das kann beliebiger Text, wie finanzielle Informationen, Geburtstage, Privatadressen oder medizinische Details, sein. In jedem Fall dürfen Dateien nur mit starker Verschlüsselung übertragen werden, damit auf dem Weg zwischen den Systemen niemand Daten abgreifen kann. Auch das System des OCR Anbieters selbst muss stark gegen Angriffe von außen geschützt sein. Bei der Wahl des Anbieters sollte das ein wesentliches Kriterium sein.

Neben der Datensicherheit spielt auch der Datenschutz eine große Rolle. Gerade in Europa ist dieser durch die DSGVO, die Datenschutzgrundverordnung, streng geregelt. Die Server des Onlineanbieters sollten hier möglichst innerhalb Europas stehen (Mehr Informationen zu Drittländern). Ein Ableiten der Daten in andere Regionen sollte nicht stattfinden. Weder das ursprüngliche Dokument (z.B. der Rechnungsscan oder die PDF Datei), noch die konvertierten Dateien (z.B. die fertige Excel Tabelle) sollten nach der online Verarbeitung auf dem Server des OCR-Systems verbleiben.

Genauigkeit der Texterkennung

Beispiel Quittung

Orginalbild

Scan einer Quittung

Herkömmliche online OCR erkennt meist nicht alle Textelement. Erkannte Textelemente sind grau hinterlegt.

natif AI OCR Beispiel
Herkömmliche OCR

Konfuzio OCR erkennt alle Worte

Online OCR Konfuzio Quittung
Erkennung mit Konfuzio OCR

Beispiel Personalausweis online Scan

Orginalbild

Personalausweis Beispiel Scan

Herkömmliche OCR erkennt die Buchstaben nur mit Fehlern.

natif AI OCR Personalausweis Schwächen in der Texterkennung

Konfuzio online OCR

Beste OCR online Qualität der Konfuzio OCR

Mobil und intelligent – Die Zukunft von OCR

Sobald die Verbindung des eigenen Systems mit Onlinelösungen eingerichtet ist, ergeben sich viele neue Möglichkeiten, interne Prozesse oder die Kommunikation mit Kunden oder Geschäftspartnern zu verbessern. Texterkennung ist durch die verteilte Rechenleistung auch von mobilen Geräten leicht zu erledigen. Durch den kontinuierlichen Ausbau der OCR Plattformen sind neue Services schnell verfügbar. Intelligente Algorithmen mit künstlicher Intelligenz (KI) erlauben das Erkennen von Handschriften und fragmentierten Informationen über mehrere Seiten hinweg.

Auch Videoquellen rücken in den Fokus. Tools zur Texterkennung aus Videos heraus können Inhalte ohne Einbußen der Leistungsfähigkeit der eigenen Systeme konvertieren. Augelesener Text kann dann z.B. zur Verbesserung der freien Zugänglichkeit der Videoquellen genutzt werden. Und nicht nur die OCR-Verarbeitung, sondern auch die nachfolgenden Verarbeitungsschritte können schrittweise in die Cloud verlagert werden. So kann sich das Unternehmen auf sein Kerngeschäft konzentrieren, ohne sich um Servertechnologien und IT-Administration Sorgen machen zu müssen.

Quellen

  1. Regelungen zu Drittländern innerhalb der Datenschutzgrundverordnung DSGVO: https://dsgvo-gesetz.de/themen/drittland/
  2. Open-Source OCR-Lösung Tesseract Dokumentation: https://tesseract-ocr.github.io/tessdoc/
Wie sicher sind Online OCR Anwendungen?

Der Unterschied zwischen online und lokalen OCR Anwendungen ist die Übertragung von Dokumenten über das Internet. Diese Übertragung muss nachweislich sicher hergestellt werden. Zusätzlich muss der Anbieter die Daten auf den eigenen Servern vor Missbrauch schützen. Mehr Informationen zu den Maßnahmen bieten alle seriösen Anbieter auf Nachfrage an.

Wie führe ich eine OCR Verarbeitung von PDFs online aus?

Für private Anwender stehen diverse Plattformen zur direkten Konvertierung von PDF Dateien zur Verfügung. Die PDF Datei sollte auf dem lokalen Gerät (Desktop, Tablet, Smartphone) verfügbar sein. Über ein Formular kann die Datei dann auf den Server des Anbieters hochgeladen werden. Zusätzliche Optionen erlauben die Auswahl des Ausgabeformats. Sobald die OCR Verarbeitung beendet ist, steht das Ergebnisdokument zum Download zur Verfügung.

Wie zuverlässig sind die Ergebnisse von Online OCR Anwendungen?

Die Qualitåat der Ergebnisse einer OCR-Verarbeitung durch Online Plattformen unterscheidet sich nicht grundsätzlich von Anwendungen auf dem eigenen Rechner. Viel wichtiger sind die Algorithmen die Verwendung finden. Hier gibt es oft sichtbare Unterschiede, gerade bei komplexeren Inhalten und scher-lesbaren Dokumenten. Häufig sind lokale Anwendungen nach einigen Jahren auf dem Rechner nicht auf dem neusten Stand der Technik. Online Plattformen bieten hingegen jederzeit die neueste Version an, da sie automatisch für alle Anwender aktualisiert werden. Auch Machine Learning funktioniert bei Online Plattformen deutlich besser, da viel mehr Daten zum Trainieren der Algorithmen zur Verfügung stehen.

Über mich

Weitere Artikel

enterprise automation titel

Enterprise Automation – Zukunft der Unternehmensentwicklung

Unternehmen stehen zunehmend vor der Herausforderung, ihre Betriebsabläufe zu optimieren, um wettbewerbsfähig zu bleiben.  Hier setzt die Enterprise Automation an,...

Zum Artikel
Was ist Document Layout Analysis?

Deep Dive Document Layout Analysis mit High-Tech-Tools

Document Layout Analysis bildet die Brücke zwischen unstrukturierten Daten und ihrer sinnvollen Nutzung, indem sie strukturierte Informationen extrahiert und dabei...

Zum Artikel
Läuferin

Active Learning für datenzentrierte KI

Ein großes Thema im Bereich des maschinellen Lernens (ML), das häufig auftritt, wenn Leistungsverbesserungen vorgenommen werden sollen, sind die Rüstkosten...

Zum Artikel
Arrow-up