Formularerkennung mit AI in der Cloud

Findest Du auch, dass man Papierformulare abschaffen sollte? Wir durften für einen Kunden den Papierformular-Prozess zwar nicht ganz abschaffen, aber dafür mittels AI und Cloud stark automatisieren. Dadurch konnten wir dessen Aufwand um 80% reduzieren. Wie wir dabei vorgingen und auf welche technische Lösung wir setzen, zeigen wir Dir in diesem Blog auf.

Autoren: Andreas Schneider, Dominique Gaschen & Stefan Hüsemann

Jeder kennt sie, viele ärgern sich über sie: Papierformulare. Manchmal bekommst Du sie digital zugestellt, Du sollst sie aber ausdrucken und postalisch einsenden. Oder Du erhältst das Formular in Papierform zugeschickt und musst sie per Mail versenden. Die Geschichte endet jedoch nicht mit dem Ausfüllen und Versenden. Denn irgendwo gibt es jemanden, der den Brief öffnet, das Papierformular abtippt und die Inhalte speichert – was nicht besonders effizient ist. Und eigentlich wissen wir alle, was die Lösung wäre, um diesen Prozess zu vereinfachen: Digitalisieren.

Wieso die Umstellung auf digitale Formulare nicht so einfach ist

Wie bereits festgestellt, wäre es am einfachsten, den gesamten Prozess von Anfang bis Ende digital zu gestalten. Das wäre effizienter und würde Fehler reduzieren. Leider ist das in der Realität nicht immer sofort möglich. Als Unternehmen kann man die Formulare und deren Vielfalt nicht immer selbst kontrollieren. In unserem Fall verhindert die Tatsache, dass es sich um einen unternehmensübergreifenden Prozess mit internationalen Standards handelt, eine vollständige Digitalisierung des gesamten Ablaufs. Den ganzen Prozess anzupassen, benötigt einen breiten Konsens und Zeit. Bis es soweit ist und digitale Formulare auch vollständig in der Gesellschaft akzeptiert werden, gibt es eine andere Lösung: automatische Formularerkennung mit AI.

Damit unser Kunde trotzdem möglichst rasch von der Automatisierung mit AI profitieren kann, sind wir folgende Herausforderungen angegangen:

  1. Vielzahl an Formulartypen: Diese enthalten mehrheitlich dieselben Informationen und unterscheiden sich nur hinsichtlich Layout, Sprache, Bildqualitäten sowie mit oder ohne Wasserzeichen im Hintergrund.
  2. Aufnahmequalität der Bilder: Die Vielzahl von Aufnahmeumgebungen und Formularlayouts erschweren die Erkennung.
  3. Risiko von hohen Korrekturkosten: Denn das falsche Auslesen von Daten in unserem Anwendungsfall birgt das Risiko, dass wir eine falsche Berechnungsgrundlage für Gebühren haben.

AI aus der Cloud vereinfacht die Formularerkennung

Für uns Menschen mag es einfach erscheinen, Text in Formularen zu erkennen. Computer stellt dies jedoch aus den oben genannten Gründen vor grosse Herausforderungen. Das Erkennen allein genügt aber noch nicht, denn der Text muss auch einem Feld zugeordnet werden. Mit klassischer Programmierung ist dieses Problem jedoch kaum zu lösen – oder erfordert immensen Aufwand. Hier kann von künstlicher Intelligenz (AI) Gebrauch gemacht werden. Doch auch mit AI wäre der Aufwand gross, für die vielen Formular-Typen, ein eigenes Modell zu trainieren und einen Service zu bauen, über den man auf die Modelle zugreifen kann.
Zum Glück gibt es bei verschiedenen Public-Cloud-Anbietern sogenannte Formularerkennungs-Services, die vortrainierte Modelle zur Verfügung stellen. Bei unserem Kunden haben wir auf die Azure Cloud gesetzt. Der entsprechende Service heisst dort Azure Form Recognizer. Mit diesem Service können automatisch Inhalte aus Formularen gelesen werden. Damit die kundenspezifischen Formulare besser erkannt werden, muss das vordefinierte Machine Learning (ML) Modell mit Kundendaten “nach-trainiert” und so personalisiert werden. 

MLOps operationalisiert und verbessert laufend unsere AI-Lösung

Der AI-Service aus der Cloud allein genügt aber nicht. Die Implementierung und Operationalisierung der ganzen AI-Lösung ist die Voraussetzung für eine langfristig stabile Nutzung und kontinuierliche Verbesserung der neuronalen ML-Modelle. Die Modelle und ihre Performance müssen stets genau geprüft, weiter optimiert und an neue Formular-Typen angepasst werden. 
Genau hier kommt MLOps ins Spiel (siehe Wikipedia "MLOps"). Die Umsetzung von MLOps Praktiken, wie kontinuierliches Training, ist deshalb ausschlaggebend für den langfristigen Erfolg des Projekts.

Nach diesem Prinzip haben wir für unseren Kunden eine AI-Anwendung in der Cloud mit Azure Form Recognizer als Kern gebaut, der seinen spezifischen Bedürfnissen entspricht. Die Anwendung erkennt automatisch Inhalte aus Formularfeldern und gibt sie dann menschlichen Prüfern weiter. Das macht den Prozess nicht nur sicherer, sondern es schliesst zudem auch die Feedbackschleife. Der Kunde kann dadurch kontinuierlich Daten für die Verbesserung der Modelle sammeln und die Qualität der Anwendung während der gesamten Laufzeit überprüfen. 

AI-Lösung basiert auf einer Hybrid-Cloud Architektur

Wie sieht nun die Lösung für unseren weitgehend automatisierten Formularerkennungs-Prozess aus? Die folgende Abbildung zeigt unsere Hybrid-Cloud-Architektur.

Abbildung: Architektur der AI-Lösung
Abbildung: Architektur der AI-Lösung

Die Architekturskizze erläutert Schritt für Schritt den digitalisierten Prozess:

  1. Der Benutzer ist im Besitz eines ausgedruckten Formulars, das er von einer anderen Organisation erhalten hat. Er fotografiert das Formular mit seinem Handy, loggt sich auf dem Portal des Unternehmens ein und lädt das Foto hoch. Das Portal läuft on-prem beim Unternehmen und ist über das Internet erreichbar. 
  2. Das hochgeladene Foto wird im Hintergrund an den Service geschickt, über den das Formularerkennungs-Modell zugänglich ist. Dies ist der oben beschriebene trainierte Azure Form Recognizer Service in der Public Cloud.
  3. Der Service wertet die Inhalte aus und gibt sie als strukturierte Liste zurück. Spannend ist, dass bei jedem ausgelesenen Feld ein Konfidenz-Index mitgegeben wird, der angibt, wie sicher die künstliche Intelligenz ist, dass das Resultat korrekt ist. Basierend auf diesen Kennzahlen kann das Portal den Benutzer z.B. auffordern, ein Foto mit besserer Qualität hochzuladen oder den internen Mitarbeitenden den Hinweis geben, bei welchen Feldern besonders aufmerksam manuell überprüft werden sollte.
  4. Danach werden die erkannten Resultate durch einen Mitarbeitenden des Unternehmens geprüft und gegebenenfalls korrigiert. 
  5. Diese Daten dienen dann als neue Beispiele für das automatische Verbessern der Modelle (siehe ML-Design Time in der Abbildung). Das Herstellen dieser Feedbackschleife ist, wie oben erwähnt, essenziell für den längerfristigen Einsatz in einer produktiven Umgebung.

Was die Lösung bringt

Mit der Implementierung einer AI-Lösung mit Azure Form Recognizer als Kern konnten wir den Papierformular Prozess stark automatisieren. Dadurch kann das Unternehmen die Zeit bei der manuellen Erfassung um ungefähr 80% reduzieren. Gleichzeitig wird der Prozess für den Endkunden massiv beschleunigt und vereinfacht. 
Hervorzuheben ist, dass der Nutzen dieser Lösung jedoch sehr stark von der Anzahl Formulare abhängt, die den Prozess durchlaufen. Die Kosten für die Entwicklung werden mit den Einsparungen bei der manuellen Arbeit amortisiert. Ab ca. 10’000 bearbeiteten Formularen überwiegen die Einsparungen bei unserem Kunden die Entwicklungskosten. Ab diesem Punkt hat sich die Automatisierung gelohnt. Da unser Kunde ca. 70’000 Dokumente pro Jahr erwartet, sind die Einsparungen signifikant - und dabei ist der Nutzen auf Endkunden-Seite noch nicht berücksichtigt.

ipt Erfahrungen aus dem Projekt

Das Vorgehen, die konzipierte Hybrid-Cloud-Architektur sowie der ausgewählte Public-Cloud Formularerkennungs-Service haben sich bewährt.

  • Wir konnten den Prototypen für die in diesem Artikel beschriebene Cloud-basierte AI-Lösung in kürzester Zeit umsetzen - konkret innerhalb von ca. 30 Personentagen. Dies war nur möglich, weil Azure einen “vor-trainierten” Service für Formularerkennung in der Public Cloud bereitstellt. 
  • Die Hybrid-Cloud-Architektur erlaubt eine optimale Integration in die bestehende Anwendungslandschaft und gleichzeitig die Nutzung innovativer Cloud-Dienste.
  • Für den langfristigen Erfolg dieser AI-Lösung sind MLOps Prinzipien entscheidend. Nur mit kontinuierlichem Sammeln und Rückspeisen von Korrekturen ins ML-Modell können wir uns den sich ändernden Umständen anpassen.

Die eingangs erwähnte Abschaffung der Papierformulare ist uns in dem Projekt noch nicht gelungen. Doch in der für unseren Kunden beeinflussbaren Umgebung konnte eine AI-basierte Lösung gebaut werden, von der er begeistert ist – und wir konnten unserem Motto «make technology valuable» gerecht werden.