Aktuelle Weiterentwicklungen im IDP-Plugin für Klassifikation und Extraktion

Unternehmen verarbeiten täglich große Mengen an Dokumenten, etwa Rechnungen, Verträge oder Lieferscheine.

Der eigentliche Mehrwert entsteht jedoch erst dann, wenn diese Inhalte automatisch erkannt, klassifiziert und für nachfolgende Prozesse strukturiert werden können.

Mit den neuen Erweiterungen im DocuWare IDP-Plugin wird dieser Schritt nun deutlich vereinfacht: Nutzer können KI-Modelle für Klassifizierung und Extraktion direkt in DocuWare trainieren – auf Basis bereits vorhandener Dokumente im System und ohne externe Trainingsumgebungen.

Das Ziel der Entwicklung ist, die Erstellung und Nutzung von KI-Modellen so einfach wie möglich zu machen und vollständig in die bestehende DocuWare-Umgebung zu integrieren.

KI-Modelle ohne Systemunterbrechungen erstellen

Ein zentrales Ziel der Erweiterung ist es, dass Nutzer:

KI-Modelle direkt in DocuWare trainieren können
vorhandene Dokumente aus File Cabinets als Trainingsbasis verwenden
Modelle ohne externe Tools oder Datenaufbereitung erstellen können
trainierte Modelle unmittelbar produktiv im System einsetzen können

Damit entsteht ein nahtloser End-to-End-Ansatz, bei dem der gesamte Lebenszyklus eines IDP-Modells innerhalb von DocuWare abgebildet wird.

Das DocuWare IDP-Plugin als zentrale Plattform

Das IDP-Plugin fungiert als zentrale Steuerung für alle Funktionen des Intelligent Document Processing. In dieser Oberfläche können Nutzer:

Trainings für Klassifizierung Extraktion und Trennung starten
File Cabinets und Indexfelder als Basis für das Training auswählen
Modelle konfigurieren und wiederverwenden
den gesamten Lebenszyklus von IDP-Workflows verwalten

Alle Schritte werden in einer einheitlichen Oberfläche gebündelt, was den bislang unheinheitlichen Trainingsprozess deutlich vereinfacht.

Vereinfachtes Trainingskonzept: Von der Konfiguration zur Nutzung von Daten

Ein wesentlicher Wandel im Ansatz besteht in der Abkehr von manueller Konfiguration hin zu datengetriebenem Lernen.

Statt komplexer Modellkonfiguration stützt sich der neue Ansatz auf:

vorhandene Dokumentbestände in DocuWare
strukturierte Indexdaten
die automatische Generierung von Trainingsdaten

Die Modellqualität wird damit zunehmend durch die zugrunde liegende Datenbasis bestimmt und weniger durch manuell definierte Regeln.

Splitting: Saubere Trennung für bessere Klassifikation und Extraktion

Splitting, oder auch Trennung, erweitert das DocuWare IDP-Plugin um die automatische Aufteilung gemischter oder mehrseitiger Dokumente in einzelne, logisch getrennte Dokumente.

Der Splitter wird dabei als Agent im Plugin ausgewählt und verarbeitet Dokumente direkt innerhalb von DocuWare IDP, bevor sie an die Klassifizierung und Extraktion weitergegeben werden.

Von externen Tools zur IDP-Integration

Vor der Integration war Splitting nicht Bestandteil des IDP-Plugins und musste über externe Tools wie storageRobot oder Make.com umgesetzt werden.

Verbesserungen in der Dokumententrennung

weniger manuelle Vorverarbeitung durch Wegfall von Annotation und externer Trennung
bessere Ergebnisse bei der Klassifizierung und Extraktion durch sauber getrennte Einzeldokumente
Integration in das DocuWare IDP-Plugin ohne Systembrüche oder externe Tools

Mit der Integration ist die Dokumenttrennung vollständig in den Workflow eingebettet und ermöglicht eine durchgängige, automatisierte Verarbeitung von der Erfassung bis zur Extraktion.

Klassifizierung: präzisere Modelle durch strukturierte Daten

Die Dokumentklassifizierung ist eine wichtige Voraussetzung für jede Automatisierung. Nur wenn ein Dokumenttyp korrekt erkannt wird, können Prozesse zuverlässig gesteuert werden.

Training mithilfe von File Cabinets und Indexfeldern

Bisher basierte das Training vor allem auf der Auswahl mehrerer Akten, wobei der Aktenname als Klassenlabel diente. In der Praxis ist dieser Ansatz jedoch eingeschränkt, da Akten oft unterschiedliche Dokumente enthalten.

Erweiterung: Nutzung von Indexfeldern

Mit der neuen Erweiterung kann zusätzlich ein Indexfeld zur Definition von Klassen verwendet werden. Dadurch entsteht eine deutlich höherer Feinheitsgrad.

Beispiel:
Eine Akte enthält 1.000 Dokumente mit dem Indexfeld „DocType“:

Invoice
Credit Note
Delivery Slip

Statt die gesamte Akte als eine Klasse zu behandeln, können diese Werte nun direkt als separate Klassen genutzt werden. Das führt zu einheitlicheren Trainingsdaten und besseren Klassifizierungsergebnissen.

Flexible Trainingslogik

Nutzer können zwischen zwei Ansätzen wählen:

mehrere File Cabinets als Klassenbasis
Ein einzelnes File Cabinet plus Indexfeld für feinere Klassifizierung

Damit bleibt das System flexibel und an unterschiedliche Kundenstrukturen anpassbar.

Extraktion: End-to-End-Training ohne Annotation

Am deutlichsten wird die Vereinfachung bei der Dokumentextraktion.

Wie es vorher ablief

Im klassischen Ansatz mussten nach der Einrichtung eines Extraktionsprozessses

Dokumente manuell annotiert werden
Felder markiert werden
Trainingsdaten vorbereitet werden

Dieser Schritt war zeitaufwendig und stellte bei der Einführung häufig eine Hürde dar.

Jetzt gibt es das direkte Training

Mit GenAI Extraction entfällt dieser Schritt vollständig.

Stattdessen läuft es jetzt so ab:

das Training wird direkt im IDP-Plugin gestartet
File Cabinets und Indexfelder werden ausgewählt
das System erstellt automatisch ein Trainingsmodell
Annotation ist nicht mehr erforderlich

Integration in DocuWare IDP

Die Trainingslogik basiert auf der Integration in die DocuWare IDP-Plattform. Über eine Gateway-Schnittstelle:

werden Trainingsdaten aus DocuWare übertragen
Modelle in DocuWare IDP erstellt
Ergebnisse wieder in DocuWare bereitgestellt

Damit entsteht eine permante Verbindung zwischen Dokumentenmanagement und KI-Training.

Vorteile für Unternehmen

Die neuen Erweiterungen setzen genau dort an, wo IDP bisher oft zu komplex war, nämlich beim Modelltraining.

Die wichtigsten Vorteile:

deutlich schnellere Erstellung neuer KI-Modelle
keine externen Trainingsumgebungen erforderlich
Nutzung vorhandener Dokumente als Trainingsbasis
geringerer Konfigurationsaufwand
IDP-Prozesse schneller produktiv nutzen
höhere Akzeptanz durch einfachere Bedienung

Dahinter steht die Annahme, dass IDP bisher vor allem wegen der aufwendigen Modellerstellung nur eingeschränkt genutzt wurde.

Ausblick auf das was kommt

Mit dem End-to-End-Training für Klassifizierung und Extraktion entwickelt sich das DocuWare IDP-Plugin in Richtung einer vollständig integrierten KI-Trainingsplattform innerhalb des Dokumentenmanagements.

Zukünftige Erweiterungen werden diesen Ansatz weiter ausbauen und den automatischen Einsatz sowie die kontinuierliche Verbesserung von Modellen im Live-Betrieb ermöglichen.