Unternehmen verarbeiten täglich große Mengen an Dokumenten, etwa Rechnungen, Verträge oder Lieferscheine.
Der eigentliche Mehrwert entsteht jedoch erst dann, wenn diese Inhalte automatisch erkannt, klassifiziert und für nachfolgende Prozesse strukturiert werden können.
Mit den neuen Erweiterungen im DocuWare IDP-Plugin wird dieser Schritt nun deutlich vereinfacht: Nutzer können KI-Modelle für Klassifizierung und Extraktion direkt in DocuWare trainieren – auf Basis bereits vorhandener Dokumente im System und ohne externe Trainingsumgebungen.
Das Ziel der Entwicklung ist, die Erstellung und Nutzung von KI-Modellen so einfach wie möglich zu machen und vollständig in die bestehende DocuWare-Umgebung zu integrieren.
KI-Modelle ohne Systemunterbrechungen erstellen
Ein zentrales Ziel der Erweiterung ist es, dass Nutzer:
- KI-Modelle direkt in DocuWare trainieren können
- vorhandene Dokumente aus File Cabinets als Trainingsbasis verwenden
- Modelle ohne externe Tools oder Datenaufbereitung erstellen können
- trainierte Modelle unmittelbar produktiv im System einsetzen können
Damit entsteht ein nahtloser End-to-End-Ansatz, bei dem der gesamte Lebenszyklus eines IDP-Modells innerhalb von DocuWare abgebildet wird.
Das DocuWare IDP-Plugin als zentrale Plattform
Das IDP-Plugin fungiert als zentrale Steuerung für alle Funktionen des Intelligent Document Processing. In dieser Oberfläche können Nutzer:
- Trainings für Klassifizierung Extraktion und Trennung starten
- File Cabinets und Indexfelder als Basis für das Training auswählen
- Modelle konfigurieren und wiederverwenden
- den gesamten Lebenszyklus von IDP-Workflows verwalten
Alle Schritte werden in einer einheitlichen Oberfläche gebündelt, was den bislang unheinheitlichen Trainingsprozess deutlich vereinfacht.
Vereinfachtes Trainingskonzept: Von der Konfiguration zur Nutzung von Daten
Ein wesentlicher Wandel im Ansatz besteht in der Abkehr von manueller Konfiguration hin zu datengetriebenem Lernen.
Statt komplexer Modellkonfiguration stützt sich der neue Ansatz auf:
- vorhandene Dokumentbestände in DocuWare
- strukturierte Indexdaten
- die automatische Generierung von Trainingsdaten
Die Modellqualität wird damit zunehmend durch die zugrunde liegende Datenbasis bestimmt und weniger durch manuell definierte Regeln.
Splitting: Saubere Trennung für bessere Klassifikation und Extraktion
Splitting, oder auch Trennung, erweitert das DocuWare IDP-Plugin um die automatische Aufteilung gemischter oder mehrseitiger Dokumente in einzelne, logisch getrennte Dokumente.
Der Splitter wird dabei als Agent im Plugin ausgewählt und verarbeitet Dokumente direkt innerhalb von DocuWare IDP, bevor sie an die Klassifizierung und Extraktion weitergegeben werden.
Von externen Tools zur IDP-Integration
Vor der Integration war Splitting nicht Bestandteil des IDP-Plugins und musste über externe Tools wie storageRobot oder Make.com umgesetzt werden.
Verbesserungen in der Dokumententrennung
- weniger manuelle Vorverarbeitung durch Wegfall von Annotation und externer Trennung
- bessere Ergebnisse bei der Klassifizierung und Extraktion durch sauber getrennte Einzeldokumente
- Integration in das DocuWare IDP-Plugin ohne Systembrüche oder externe Tools
Mit der Integration ist die Dokumenttrennung vollständig in den Workflow eingebettet und ermöglicht eine durchgängige, automatisierte Verarbeitung von der Erfassung bis zur Extraktion.
Klassifizierung: präzisere Modelle durch strukturierte Daten
Die Dokumentklassifizierung ist eine wichtige Voraussetzung für jede Automatisierung. Nur wenn ein Dokumenttyp korrekt erkannt wird, können Prozesse zuverlässig gesteuert werden.
Training mithilfe von File Cabinets und Indexfeldern
Bisher basierte das Training vor allem auf der Auswahl mehrerer Akten, wobei der Aktenname als Klassenlabel diente. In der Praxis ist dieser Ansatz jedoch eingeschränkt, da Akten oft unterschiedliche Dokumente enthalten.
Erweiterung: Nutzung von Indexfeldern
Mit der neuen Erweiterung kann zusätzlich ein Indexfeld zur Definition von Klassen verwendet werden. Dadurch entsteht eine deutlich höherer Feinheitsgrad.
Beispiel:
Eine Akte enthält 1.000 Dokumente mit dem Indexfeld „DocType“:
- Invoice
- Credit Note
- Delivery Slip
Statt die gesamte Akte als eine Klasse zu behandeln, können diese Werte nun direkt als separate Klassen genutzt werden. Das führt zu einheitlicheren Trainingsdaten und besseren Klassifizierungsergebnissen.
Flexible Trainingslogik
Nutzer können zwischen zwei Ansätzen wählen:
- mehrere File Cabinets als Klassenbasis
- Ein einzelnes File Cabinet plus Indexfeld für feinere Klassifizierung
Damit bleibt das System flexibel und an unterschiedliche Kundenstrukturen anpassbar.
Extraktion: End-to-End-Training ohne Annotation
Am deutlichsten wird die Vereinfachung bei der Dokumentextraktion.
Wie es vorher ablief
Im klassischen Ansatz mussten nach der Einrichtung eines Extraktionsprozessses
- Dokumente manuell annotiert werden
- Felder markiert werden
- Trainingsdaten vorbereitet werden
Dieser Schritt war zeitaufwendig und stellte bei der Einführung häufig eine Hürde dar.
Jetzt gibt es das direkte Training
Mit GenAI Extraction entfällt dieser Schritt vollständig.
Stattdessen läuft es jetzt so ab:
- das Training wird direkt im IDP-Plugin gestartet
- File Cabinets und Indexfelder werden ausgewählt
- das System erstellt automatisch ein Trainingsmodell
- Annotation ist nicht mehr erforderlich
Integration in DocuWare IDP
Die Trainingslogik basiert auf der Integration in die DocuWare IDP-Plattform. Über eine Gateway-Schnittstelle:
- werden Trainingsdaten aus DocuWare übertragen
- Modelle in DocuWare IDP erstellt
- Ergebnisse wieder in DocuWare bereitgestellt
Damit entsteht eine permante Verbindung zwischen Dokumentenmanagement und KI-Training.
Vorteile für Unternehmen
Die neuen Erweiterungen setzen genau dort an, wo IDP bisher oft zu komplex war, nämlich beim Modelltraining.
Die wichtigsten Vorteile:
- deutlich schnellere Erstellung neuer KI-Modelle
- keine externen Trainingsumgebungen erforderlich
- Nutzung vorhandener Dokumente als Trainingsbasis
- geringerer Konfigurationsaufwand
- IDP-Prozesse schneller produktiv nutzen
- höhere Akzeptanz durch einfachere Bedienung
Dahinter steht die Annahme, dass IDP bisher vor allem wegen der aufwendigen Modellerstellung nur eingeschränkt genutzt wurde.
Ausblick auf das was kommt
Mit dem End-to-End-Training für Klassifizierung und Extraktion entwickelt sich das DocuWare IDP-Plugin in Richtung einer vollständig integrierten KI-Trainingsplattform innerhalb des Dokumentenmanagements.
Zukünftige Erweiterungen werden diesen Ansatz weiter ausbauen und den automatischen Einsatz sowie die kontinuierliche Verbesserung von Modellen im Live-Betrieb ermöglichen.