Mit GenAI entwickeln wir unsere Extraktionstechnologie konsequent weiter. Dabei rückt stärker in den Fokus, was am Ende wirklich zählt, nämlich ein präzises und strukturiertes Endergebnis.
Was sich ändert
Bisher basierte die klassische Extraktion auf einem mehrstufigen Ansatz.
Dokumente wurden in OCR-Boxen zerlegt, diese Boxen anschließend klassifiziert und die Ergebnisse anschließend durch zusätzliche Logik zu finalen Feldern zusammengesetzt.
Dieser Ansatz hat grundsätzlich funktioniert, brachte jedoch einige Einschränkungen mit sich:
- Hohe Abhängigkeit von Box-Strukturen: Unterschiede im Layout oder in der Annotation können die Qualität beeinflussen
- Aufwendige Annotation: Trainingsdaten müssen sehr konsistent auf Box-Ebene erstellt werden
- Komplexe Nachverarbeitung: Exakte Ergebnisse hängen häufig von zusätzlichen Regeln und Konfigurationen ab
- Eingeschränkte Nutzung von Feedback: Korrekturen durch Nutzer lassen sich nur schwer direkt als Trainingsdaten verwenden
- Limitierte Metriken: Die Qualität der Box-Klassifikation spiegelt nicht immer die Qualität des finalen Ergebnisses wider
Der zentrale Punkt dabei:
Das System optimiert bisher vor allem Zwischenschritte, nicht das Ergebnis, das der Nutzer tatsächlich benötigt.
Was GenAI Extraction anders macht
Mit GenAI Extraction findet ein grundlegender Perspektivwechsel statt.
Das Modell wird direkt darauf trainiert, die finalen Felder zu erzeugen, also genau die Werte, die später im System verwendet werden. Zwischenschritte wie die Box-Klassifikation verlieren dadurch an Bedeutung.
In der Praxis bedeutet das:
- Das gesamte Dokument wird als Kontext betrachtet
- Felddefinitionen und Beschreibungen (Prompts) steuern die Extraktion
- Das Modell liefert die finalen Ergebnisse direkt
Statt einzelne Textfragmente zu labeln, interpretiert das Modell den Inhalt ganzheitlich und leitet daraus die passenden Werte ab.
Der entscheidende Unterschied
Der Unterschied zwischen klassischer Extraktion und GenAI Extraction liegt im Optimierungsziel:
- Klassische Extraktion: Optimiert die Klassifikation einzelner Elemente (z. B. OCR-Boxen)
- GenAI Extraction: Optimiert direkt die Qualität des finalen Ergebnisses
Das bringt die Extraktion näher an reale Anwendungsfälle heran und vereinfacht nicht nur den technischen Ansatz.
Warum das wichtig ist
GenAI Extraction ermöglicht damit eine neue Arbeitsweise mit Extraktionsmodellen.
Statt starrer Trainingszyklen entsteht ein iterativer Prozess:
- Felder definieren: klare Feldnamen und Prompts festlegen
- Ergebnisse sofort sehen: Zero-Shot-Ergebnisse ohne Training erhalten
- Schrittweise verbessern: Prompts und Ergebnisse iterativ anhand von Feedback optimieren
Das macht die Entwicklung schneller, transparenter und skalierbarer, besonders in API-basierten und automatisierten Prozessen.
Der Fokus verlagert sich dabei klar vom Zwischenschritt hin zum finalen Ergebnis, sodass Metriken und Verbesserungen die tatsächliche Produktionsqualität besser widerspiegeln. Gleichzeitig kann Nutzerfeedback direkter in den Lernprozess einfließen, was eine kontinuierliche Optimierung ermöglicht.
Drei zentrale Vorteile unterstreichen, warum GenAI-basierte Extraktion ein wichtiger Bestandteil unseres neuen Vorgehens ist:
1. Zero-Shot: sofortige Extraktion ohne Training
Zero-Shot verändert, wie Extraktionsprozesse gestartet werden.
Es ermöglicht die Extraktion von Feldern ohne vorheriges Training. Das Modell nutzt lediglich den Feldnamen, die Beschreibung (Prompt) und den Dokumentinhalt, um den wahrscheinlichsten Wert zu bestimmen.
Vorteile:
- Kein klassischer Trainingsprozess erforderlich
- Ergebnisse sind sofort verfügbar, ohne Annotation oder Wartezeit
Der wichtigste Vorteil ist der schnelle Feedback-Loop: Felder können definiert, getestet und direkt verbessert werden, noch bevor Trainingsdaten existieren.
Zero-Shot basiert auf generativem Schlussfolgern: Das Modell interpretiert Inhalte statt sie nur zu klassifizieren. Dadurch ist die Qualität der Prompts entscheidend.
Besonders gut funktioniert dieser Ansatz bei standardisierten Feldern und gängigen Dokumenttypen. Für komplexe Regeln kann er durch Few-Shot oder Training ergänzt werden.
2. Training mit bestehenden Daten (z. B. DocuWare-Dokumente)
Statt Dokumente hochzuladen und manuell zu annotieren, können jetzt auch vorhandene Dokumente genutzt werden, um Modelle zu trainieren.
Dafür gibt es zwei Möglichkeiten:
- durch Upload eines Dokuments zusammen mit der passenden JSON-Datei
- oder durch Erstellung eines Modells direkt aus DocuWare
Dabei können einfach die gewünschten Dokumente ausgewählt werden. Die Indexwerte aus dem DocuWare File Cabinet dienen dann als Annotation und Trainingsgrundlage.
Bei vergleichbarer Extraktionsqualität lassen sich so Modelle schneller erstellen und trainieren.
3. Training mit Validierung
Ein weiterer Vorteil von GenAI Extraction ist die Nutzung von Feedback aus der Validierungsoberfläche zur Verbesserung bestehender Modelle.
Die entsprechende Feedback-Funktion wird derzeit entwickelt und steht schon bald zur Verfügung.
Wenn Nutzer extrahierte Werte in der Validierung korrigieren, wird dieses Feedback erfasst und kann in zukünftige Trainingszyklen einfließen.
Zusätzlich sorgt die Validierung für einen kontrollierten Schritt im automatisierten IDP-Workflow: Die Ergebnisse werden vor der Weiterverarbeitung geprüft und bestätigt. Der Prozess pausiert, bis eine Freigabe erfolgt, sodass nur validierte Daten weitergegeben werden.
Dieses Feedback-System ermöglicht eine kontinuierliche Verbesserung. Durch regelmäßiges Retraining wird das Modell mit der Zeit immer genauer und zuverlässiger – ein adaptives System, das sich durch die Nutzung stetig weiterentwickelt.
Von festen Extraktionsprozessen Systemen, die lernen
GenAI Extraction markiert den Übergang von einem klassischen, pipelinebasierten Ansatz hin zu einem ergebnisorientierten System mit kontinuierlicher Verbesserung.
Im Mittelpunkt stehen nicht mehr einzelne Verarbeitungsschritte, sondern die Qualität des finalen strukturierten Outputs.
Training ist dabei kein separater Schritt mehr, sondern Teil eines kontinuierlichen Lernprozesses, der durch Nutzung und Validierung gesteuert wird. Das System entwickelt sich dabei laufend weiter und passt sich an echte Anforderungen und Daten an.
So wird Extraktion insgesamt einfacher, transparenter und näher an echten Geschäftsprozessen mit dem Ziel, Modelle zu produktiven, adaptiven Systemen weiterzuentwickeln, die sich kontinuierlich verbessern.