Lösungen
Produkte
Ressourcen
Unternehmen
Partner
Kostenfreie Demo

Neu im IDP: Datenextraktion mit GenAI

New in IDP: GenAI extraction

Die Datenextraktion aus Dokumenten ist heute weder aufwendig noch zeitintensiv. Mit GenAI-basierter Extraktion lassen sich Informationen flexibel und ohne große Vorarbeit aus fast jedem Dokument erfassen. Hier erfahren Sie, wie GenAI die Dokumentenverarbeitung verändert, sich von klassischen Verfahren unterscheidet und welche Methode zu Ihren Anforderungen passt. 

Inhalt:

Was sich verändert hat: Klassisches Intelligent Document Processing und GenAI Extraction im Vergleich  

Bei der klassischen IDP-Extraktion mussten für jeden Dokumenttyp eigene Modelle erstellt und gepflegt werden. Dazu wurden Dokumente manuell annotiert, also relevante Informationen markiert und den entsprechenden Datenfeldern zugeordnet. Anschließend wurden Vorlagen oder Modelle erstellt, die diese Informationen zuverlässig erkennen sollten. Auch wenn konfigurierbare Modelle den Aufwand teilweise reduziert haben, war die Einrichtung und laufende Pflege weiterhin mit erheblichem manuellem Aufwand verbunden.  

GenAI automatisiert einen Großteil dieser bisher manuellen Arbeit. Anstatt Vorlagen zu erstellen und Dokumente aufwendig zu annotieren, definieren Sie lediglich, welche Informationen extrahiert werden sollen. Eine der wichtigsten Neuerungen ist die sogenannte Zero-Shot-Extraktion. Die KI nutzt dabei die Felddefinitionen und den Inhalt des Dokuments, um die gewünschten Informationen direkt zu erkennen und auszulesen. Das geschieht ganz ohne vorheriges Training oder manuelle Annotation. Dadurch lassen sich Ergebnisse deutlich schneller testen, frühzeitig validieren und bei Bedarf durch Anpassung der Felddefinitionen optimieren. 

GenAI vereinfacht die Dokumentenverarbeitung in mehreren Bereichen: 

  • Keine manuelle Annotation erforderlich 
  • Sofortige Zero-Shot-Extraktion ohne vorheriges Training 
  • Flexible Möglichkeiten zur Verbesserung der Ergebnisse durch Beispiele oder Validierung 

Statt Dokumente von Grund auf manuell zu annotieren, können auch bereits vorhandene Dokumente – beispielsweise aus DocuWare – für die Modellerstellung genutzt werden. Das beschleunigt die Einrichtung erheblich und ermöglicht die Wiederverwendung bestehender Daten, ohne Kompromisse bei der Qualität der Extraktion einzugehen. Dabei stehen sowohl klassische Extraktionsverfahren als auch die neue GenAI Extraction zur Verfügung. So können Sie die Methode wählen, die am besten zu Ihren Prozessen und Anforderungen passt. 
 

 

Workflow-Vergleich: Klassische Extraktion vs. GenAI Extraction 

Klassische Extraktion 

Klassische Extraktion

 

Die klassische Extraktion ist der bewährte, annotationsbasierte Ansatz im IDP. Dabei wird ein Modell trainiert, indem relevante Informationen in Dokumenten manuell markiert werden. Das System lernt auf dieser Grundlage, welche Inhalte welchen Datenfeldern zugeordnet werden und an welchen Positionen sie typischerweise im Dokument zu finden sind. 

Der Ablauf der klassischen Extraktion umfasst in der Regel folgende Schritte: 

  • Dokumente hochladen 
  • Relevante Datenfelder im Dokument markieren (annotieren) 
  • Modell trainieren 
  • Daten automatisch extrahieren 

Dieser Ansatz eignet sich besonders gut für feste und vorhersehbare Dokumentenlayouts, bei denen die Struktur und Formatierung unverändert bleiben. 

 

 GenAI extraction 

Neue GenAIExtraktion

 

GenAI konzentriert sich auf den Inhalt des Dokuments. Sie legt fest, welche Felder extrahiert werden sollen, und beschreibt diese klar. Auf Basis eines bereits vortrainierten Modells liefert das System sofort erste Ergebnisse. Diese Ergebnisse können anschließend innerhalb des Workflows überprüft und validiert werden. Anwender kontrollieren die extrahierten Werte und korrigieren sie bei Bedarf, bevor die Daten in nachgelagerte Prozesse übernommen werden. Nutzerkorrekturen werden als Feedback erfasst und in zukünftigen Trainingszyklen zur Verbesserung des Modells genutzt, nicht für ein sofortiges automatisches Retraining.

 

Welche Lösung wird wann verwendet? Einsatzbereiche von klassischer Extraktion und GenAI Extraction 

Klassische Extraktion eignet sich besonders für: 

  • Dokumente mit klar definierten und festen Layouts 
  • Genaue Kontrolle darüber, wie Inhalte im Layout zugeordnet werden 
  • Große Dokumentmengen mit einheitlichem Aufbau 

GenAI Extraction eignet sich besonders für: 

  • Unterschiedliche und variierende Dokumenttypen
    • Beispiel: Dokumente, deren Aufbau stark variiert und bei denen die Extraktion auf dem gesamten Dokumentinhalt statt auf festen Positionen basiert.
  • Schnelle Implementierung mit geringem Konfigurationsaufwand
    • Beispiel: Benötigte Felder werden lediglich beschrieben und können ohne Vorlagen, Annotationen oder Modelltraining sofort extrahiert werden.
  • Schnelle Tests und iterative Anpassungen
    • Beispiel: Testen und schrittweises Verfeinern der Felddefinitionen auf Basis der sofortigen Extraktionsergebnisse und des Feedbacks.

 

Kommentar