Blog-Beitrag

»recognAIze« – OCR-Software zur Dokumentenanalyse jetzt kostenfrei im Browser testen

08.11.2021

powered by KI.NRW: Intelligente Fraunhofer-KI, die Text von allen Quellen erkennt, auch unter schweren Bedingungen

Dokumente sind ein wertvoller Datenschatz für Unternehmen, liegen aber oft nicht in maschinenlesbarem Format vor: 80% bestehen aus sogenannten unstrukturierten Daten und sind häufig noch papierbasiert. Ihre manuelle Auswertung ist zeitaufwändig, fehleranfällig und kostenintensiv. Eine Auswertung mit Künstlicher Intelligenz kann Zeit und Kosten sparen – zum Beispiel mit »recognAIze«, einem Tool, das Wissenschaftlerinnen und Wissenschaftler des Fraunhofer-Instituts für Intelligente Analyse- und Informationssysteme IAIS entwickelt haben. Unter der Projektleitung von Dr. Nicolas Flores-Herr und der Unterstützung von Dr. Joachim Köhler wurde jetzt in Zusammenarbeit mit KI.NRW ein Demonstrator zur Verfügung gestellt, damit potenzielle Kundinnen und Kunden die Software bequem in ihrem eigenen Browser testen können. Marius Nißlmüller, Teil des recognAIze-Teams, schreibt im KINRW-Blog, was sich dahinter verbirgt.

Die händische Verarbeitung von Dokumenten ist meist ein sehr aufwändiger Prozess. Egal ob in Unternehmen, Universitäten, Krankenhäusern, Behörden oder sonstigen Einrichtungen: überall gibt es Formulare, Anträge oder Rechnungen, die nach Eingang gesichtet, klassifiziert, abgelegt und geprüft werden müssen und das nicht selten in schieren Mengen. Mit unserem Team am Fraunhofer IAIS haben wir nun ein Tool entwickelt, das Abhilfe schaffen soll. Wir nennen es »recognAIze«.

recognAIze hilft dabei, repetitive, bürokratische Arbeitsvorgänge effizienter zu gestalten, indem es zentrale Abläufe der Dokumentenverarbeitung automatisiert und dem Menschen mehr Zeit lässt für wichtigere Dinge. Mithilfe von Künstlicher Intelligenz kann recognAIze große Mengen an Dokumenten einlesen, analysieren und durchsuchbar machen, und, je nach Ort der Implementierung, mit speziellen Klassifizierungsfeatures versehen. In Einkaufsabteilungen können dann Rechnungsnummern automatisiert erkannt und ihren entsprechenden Buchungsvorgängen zugeordnet werden, medizinisches Personal kann Diagnoseschlüssel auf Krankschreibungen schneller interpretieren und Forschende sowie Mitarbeitende in Archiven können bei ihrer Recherche große Textkorpora schneller durchsuchen. Anwendungsfelder gibt es viele.

Wie funktioniert´s?

© Fraunhofer IAIS | Die verschiedenen Arbeitsschritte der recognAIze-KI. Alle Funktionen sind auch noch einmal unter recognaize.de/funktionen/ nachlesbar.

Die Grundlage für eine maschinelle Weiterverarbeitung von Dokumenten, wie zum Beispiel mit Natural Language Understanding, ist Text. Wenn das Dokument allerdings nur als Foto oder Scan vorliegt, muss erst der Text mit einer sogenannten Optical Character Recognition (OCR) extrahiert werden, damit weitere Verfahren etwas zum Verarbeiten haben. Und da kommen wir ins Spiel.

  1. Zunächst gilt: je besser das Bild, desto zuverlässiger die Texterkennung. Deswegen versuchen unsere Bildverbesserungsalgorithmen Rauschen oder Störfaktoren, wie eine mangelnde Belichtung oder eine Wölbung des Papiers, zu entfernen oder auszugleichen. Altes Ursprungsmaterial, schlechte Scans von Kunden oder Außenstellen, aber auch verwackelte Fotos von Mobiltelefonen können in ihrer Qualität verbessert werden.

  2. Als nächstes hilft unsere Layouterkennung, um den Text auch semantisch in Spalten, Abschnitte und Überschriften einzuteilen, sowie die Tabellenerkennung, um auch Spalten und Reihen zu definieren. Diese Informationen geben dem Text einen Kontext, was für die Weiterverarbeitung dann relevant werden kann.

  3. Sind diese Schritte getan, fängt die Texterkennung an zu arbeiten. Dabei muss sie alle möglichen Schriftarten bei unterschiedlichsten Hintergrundtexturen erkennen können. Unsere KI wurde dazu auf über 2000 Schriftarten trainiert. Unsere Lösung setzt dafür unter anderem auf Deep-Learning-Verfahren wie Convolutional Neural Networks (CNN) und Long Short-Term Memory (LSTM), um mit modernen Ansätzen und fortlaufender Optimierung unsere Erkennungsergebnisse stetig zu verbessern.

  4. Wenn dann am Ende des Prozesses strukturierter Text entsteht, also Maschinen verstehen können, wo sich auf dem Bild welcher Text befindet, entwickeln wir die Lösung für das spezifische Problem des Kunden bzw. der Kundin. Regelbasierte Klassifizierung und Musterkennung kommen dann zum Einsatz und werden auf Basis unternehmensspezifischer Daten trainiert. Wer mehr über die konkrete Technik erfahren möchte, findet einen detaillierten Einblick auf unserer Website oder in unserem paper Efficient, Lexicon-Free OCR using Deep Learning.

Fallbeispiel Krankenversicherung: ICD-10 Codes auf Krankschreibungen

Ein typischer Anwendungsfall wäre die Erkennung und Automatisierung in der Verarbeitung von eingereichten Krankschreibungen. Bei Krankschreibungen handelt es sich immer um das gleiche Formular, welches lediglich andere Eintragungen enthält und in unterschiedlicher Auflösung oder Scan-Qualität vorliegt. Auf allen Krankschreibungen findet sich ein ICD-10 Code (International Statistical Classification of Diseases and Related Health Problems), eine Art Diagnoseschlüssel, der angibt, welche Krankheit die entsprechende Person hat. Um also beispielsweise den ICD-10 Code auszulesen, müssten wir das System zuerst darauf trainieren, wo genau sich auf der Krankschreibung die Codes befinden und dann die Auslesung perfektionieren, indem wir die Texterkennung daraufhin konfigurieren. Kund*innen müssen uns dafür einen beispielhaften Datensatz zur Verfügung stellen, damit wir einen Eindruck über die Qualität gewinnen und die zuvor beschriebenen Schritte durchführen können.

Die fertige Lösung macht dann viele kleinteilige Prozesse überflüssig. Dank der KI werden die Daten auf der Krankschreibung automatisch erkannt und vom Computer selbst in das System eingespeist, sodass keine manuelle Übertragung mehr nötig ist. Denkbar ist eine automatische Weiterverarbeitung im System, sodass abhängig von den Erkrankungen, die sich hinter den Codes verbergen, ein bestimmter Workflow ausgelöst wird. Möglich wäre auch eine sogenannte Blindverarbeitung, um sensible Informationen direkt dem richtigen Fachpersonal zuzuordnen und so die Privatsphäre der Patentinnen und Patienten zu schützen. Diese Blindverarbeitung ist auch für alle anderen Geschäftsbereiche vorstellbar, in denen Dateien mit personenbezogenen Daten verarbeitet und noch manuell zugeordnet werden, z. B. in Kanzleien oder Ämtern.

recognAIze im Browser: jetzt mit kostenlosem Testaccount selbst ausprobieren

Da jedes Unternehmen andere Dokumente und letztlich auch andere Anforderungen an die Verarbeitung dieser Dokumente hat, mussten wir in der Vergangenheit bei allen interessierten Kundinnen und Kunden einzeln demonstrieren, wie gut unsere OCR funktioniert. Ein sehr aufwändiger Prozess für alle Beteiligten, denn die Bereitstellung von Dokumentationen und die Aufforderung, das System selbst zu installieren und ausführen zu müssen, ging mit viel Abstimmungsaufwand einher.

Um diesen Prozess zu vereinfachen und zu beschleunigen, haben wir uns dafür entschieden, die recognAIze Plattform zu entwickeln: eine Web-Anwendung, mit der man die OCR im eigenen Browser testen kann. Auf der Plattform wartet nun ein kostenloses Kontingent, um unsere Texterkennung und die Optionen für die Bildvorverarbeitung auszuprobieren. Wenn ein Test verlängert werden soll, Fragen bestehen, oder der weitere Kontakt gesucht wird, stehen wir Ihnen über eine Support-Adresse (recognaize-support@iais.fraunhofer.de) jederzeit gerne zur Verfügung.

Weitere Informationen

recognAIze-Plattform: plattform.recognaize.de

recognAIze-Website: recognaize.de

Maßgeschneiderte Angebote: recognaize.de/kontakt

Support-Adresse: recognaize-support@iais.fraunhofer.de

Wissenschaftliche Hintergrundinfos: Efficient, Lexicon-Free OCR using Deep Learning: arxiv.org/pdf/1906.01969.pdf

Virtueller Showroom für Künstliche Intelligenz

recognAIze wurde im Rahmen der Kompetenzplattform KI.NRW entwickelt, damit KI-Lösungen im Live-Betrieb erprobt oder »in Aktion« erlebt werden können.  Neben recognAIze warten in unserem KI.Showroom weitere Demonstratoren auf Sie. Das Angebot wird kontinuierlich erweitert. Erklärungen und multimediale Inhalte tragen zu einem besseren Verständnis von KI-Methoden bei und verschaffen einen Überblick über den aktuellen Stand der Technologien. Der Nutzen der KI für das Einsatzgebiet – vor allem in den Unternehmen – wird deutlich, sodass Sie selbst die Potenziale in Ihrem Umfeld abschätzen können. 

Über den Autor

Marius Nißlmüller
Marius Nißlmüller

Marius Nißlmüller hat Informatik an der Universität Koblenz-Landau studiert und macht gerade seinen Master im Fach Media Informatics an der RWTH Aachen University. Seit April 2020 ist er Teil des recognAIze-Teams am Fraunhofer IAIS, Sankt Augustin.