Évolutions récentes du plugin IDP pour la classification et l’extraction

Les entreprises traitent chaque jour de grands volumes de documents : factures, contrats ou bons de livraison. La véritable valeur ajoutée apparaît toutefois lorsque ces contenus peuvent être reconnus automatiquement, classifiés et structurés pour les processus en aval.

Avec les nouvelles évolutions du plugin IDP de DocuWare, cette étape est désormais nettement simplifiée : les utilisateurs peuvent entraîner des modèles d’IA pour la classification et l’extraction directement dans DocuWare, à partir de documents déjà présents dans le système et sans recourir à des environnements externes.

L’objectif est clair : rendre la création et l’utilisation de modèles d’IA aussi simples que possible, tout en les intégrant pleinement dans l’environnement DocuWare existant.

Créer des modèles d’IA sans interruption système

Objectifs clés de cette évolution :

Entraîner des modèles d’IA directement dans DocuWare
Utiliser les documents existants dans les armoires comme base d’entraînement
Créer des modèles sans outils externes ni préparation de données
Déployer immédiatement les modèles entraînés en production

On obtient ainsi une approche de bout en bout fluide, couvrant l’ensemble du cycle de vie d’un modèle IDP au sein de DocuWare.

Le plugin DocuWare IDP comme plateforme centrale

Le plugin IDP devient le point de pilotage central de toutes les fonctionnalités de traitement intelligent des documents. Depuis cette interface, les utilisateurs peuvent :

lancer des entraînements pour la classification, l’extraction et la séparation
sélectionner des armoires et des champs d’index comme base d’entraînement
configurer et réutiliser des modèles
gérer l’ensemble du cycle de vie des workflows IDP

Toutes les étapes sont regroupées dans une interface unifiée, ce qui simplifie considérablement un processus de formation auparavant fragmenté.

Un concept d’entraînement simplifié : des configurations aux données

Un changement majeur réside dans le passage d’une configuration manuelle à un apprentissage piloté par les données.

Au lieu de paramétrages complexes, le nouveau modèle repose sur :

les documents existants dans DocuWare
des données d’index structurées
la génération automatique de données d’entraînement

La qualité des modèles dépend ainsi davantage de la qualité des données que de règles définies manuellement.

Splitting : un fractionnement propre pour améliorer la classification et l’extraction

Le splitting (fractionnement) enrichit le plugin IDP en permettant de diviser automatiquement des documents mixtes ou multipages en documents distincts et cohérents.

Le module de séparation est intégré comme un agent dans le plugin et traite les documents directement dans DocuWare IDP avant leur passage à la classification et à l’extraction.

D’outils externes à une intégration IDP

Avant cette intégration, le splitting n’était pas inclus dans le plugin IDP et devait être réalisé via des outils externes comme storageRobot ou Make.com.

Améliorations apportées

Réduction du prétraitement manuel grâce à la suppression de l’annotation et du fractionnement externe
Amélioration des résultats de classification et d’extraction grâce à des documents correctement séparés
Intégration complète dans DocuWare IDP, sans rupture ni dépendance externe

La séparation est désormais pleinement intégrée au workflow, permettant un traitement automatisé de bout en bout, de la capture à l’extraction.

Classification : des modèles plus précis grâce aux données structurées

La classification des documents est un prérequis essentiel à toute automatisation. Sans identification correcte du type de document, les processus ne peuvent pas être pilotés de manière fiable.

Entraînement avec armoires et champs d’index

Jusqu’à présent, l’entraînement reposait principalement sur la sélection de dossiers, le nom du dossier servant de label de classe. En pratique, cette approche montre ses limites, car un dossier peut contenir différents types de documents.

Nouvelle approche : utilisation des champs d’index

Avec cette évolution, un champ d’index peut désormais servir à définir les classes, offrant un niveau de granularité bien supérieur.

Exemple :

Un dossier contient 1 000 documents avec un champ d’index « DocType » :

Invoice
Credit Note
Delivery Slip

Au lieu de traiter l’ensemble du dossier comme une seule classe, ces valeurs peuvent désormais être utilisées comme classes distinctes, ce qui améliore la cohérence des données d’entraînement et la qualité de la classification.

Logique d’entraînement flexible

Les utilisateurs peuvent choisir entre deux approches :

Plusieurs armoires comme base de classes
Une seule armoire avec un champ d’index pour une classification plus fine

Le système reste ainsi adaptable aux différentes structures clients.

Extraction : un entraînement de bout en bout sans annotation

C’est sur l’extraction que la simplification est la plus marquante.

Avant

Dans l’approche classique, il fallait :

annoter manuellement les documents
marquer les champs
préparer les données d’entraînement

Ce processus était chronophage et constituait souvent un frein à l’adoption.

Désormais : entraînement direct

Avec GenAI Extraction, cette étape disparaît complètement :

L’entraînement est lancé directement dans le plugin IDP.
Les armoires et champs d’index sont sélectionnés.
Le système génère automatiquement un modèle.
L’annotation n’est plus nécessaire.

Intégration dans DocuWare IDP

La logique d’entraînement repose sur une intégration étroite avec la plateforme DocuWare IDP via une interface gateway :

Les données d’entraînement sont transmises depuis DocuWare.
Les modèles sont créés dans DocuWare IDP.
Les résultats sont réinjectés dans DocuWare.
Cela crée une connexion continue entre gestion documentaire et entraînement des modèles d’IA.

Bénéfices pour les entreprises

Ces évolutions ciblent un point critique : la complexité de l’entraînement des modèles IDP.

Principaux avantages :

Création de modèles d’IA nettement plus rapide
Absence d’environnements d’entraînement externes
Exploitation des documents existants comme base d’entraînement
Réduction des efforts de configuration
Mise en production plus rapide des processus IDP
Meilleure adoption grâce à une utilisation simplifiée

Jusqu’à présent, la complexité de création des modèles constituait un frein majeur à l’adoption de l’IDP.

Perspectives

Avec l’entraînement de bout en bout pour la classification et l’extraction, le plugin DocuWare IDP évolue vers une véritable plateforme d’entraînement IA intégrée au système de gestion documentaire.

Les prochaines évolutions renforceront cette approche, en facilitant le déploiement automatique des modèles et leur amélioration continue en conditions réelles.