Les entreprises traitent chaque jour de grands volumes de documents : factures, contrats ou bons de livraison. La véritable valeur ajoutée apparaît toutefois lorsque ces contenus peuvent être reconnus automatiquement, classifiés et structurés pour les processus en aval.
Avec les nouvelles évolutions du plugin IDP de DocuWare, cette étape est désormais nettement simplifiée : les utilisateurs peuvent entraîner des modèles d’IA pour la classification et l’extraction directement dans DocuWare, à partir de documents déjà présents dans le système et sans recourir à des environnements externes.
L’objectif est clair : rendre la création et l’utilisation de modèles d’IA aussi simples que possible, tout en les intégrant pleinement dans l’environnement DocuWare existant.
Créer des modèles d’IA sans interruption système
Objectifs clés de cette évolution :
- Entraîner des modèles d’IA directement dans DocuWare
- Utiliser les documents existants dans les armoires comme base d’entraînement
- Créer des modèles sans outils externes ni préparation de données
- Déployer immédiatement les modèles entraînés en production
On obtient ainsi une approche de bout en bout fluide, couvrant l’ensemble du cycle de vie d’un modèle IDP au sein de DocuWare.
Le plugin DocuWare IDP comme plateforme centrale
Le plugin IDP devient le point de pilotage central de toutes les fonctionnalités de traitement intelligent des documents. Depuis cette interface, les utilisateurs peuvent :
- lancer des entraînements pour la classification, l’extraction et la séparation
- sélectionner des armoires et des champs d’index comme base d’entraînement
- configurer et réutiliser des modèles
- gérer l’ensemble du cycle de vie des workflows IDP
Toutes les étapes sont regroupées dans une interface unifiée, ce qui simplifie considérablement un processus de formation auparavant fragmenté.
Un concept d’entraînement simplifié : des configurations aux données
Un changement majeur réside dans le passage d’une configuration manuelle à un apprentissage piloté par les données.
Au lieu de paramétrages complexes, le nouveau modèle repose sur :
- les documents existants dans DocuWare
- des données d’index structurées
- la génération automatique de données d’entraînement
La qualité des modèles dépend ainsi davantage de la qualité des données que de règles définies manuellement.
Splitting : un fractionnement propre pour améliorer la classification et l’extraction
Le splitting (fractionnement) enrichit le plugin IDP en permettant de diviser automatiquement des documents mixtes ou multipages en documents distincts et cohérents.
Le module de séparation est intégré comme un agent dans le plugin et traite les documents directement dans DocuWare IDP avant leur passage à la classification et à l’extraction.
D’outils externes à une intégration IDP
Avant cette intégration, le splitting n’était pas inclus dans le plugin IDP et devait être réalisé via des outils externes comme storageRobot ou Make.com.
Améliorations apportées
- Réduction du prétraitement manuel grâce à la suppression de l’annotation et du fractionnement externe
- Amélioration des résultats de classification et d’extraction grâce à des documents correctement séparés
- Intégration complète dans DocuWare IDP, sans rupture ni dépendance externe
La séparation est désormais pleinement intégrée au workflow, permettant un traitement automatisé de bout en bout, de la capture à l’extraction.
Classification : des modèles plus précis grâce aux données structurées
La classification des documents est un prérequis essentiel à toute automatisation. Sans identification correcte du type de document, les processus ne peuvent pas être pilotés de manière fiable.
Entraînement avec armoires et champs d’index
Jusqu’à présent, l’entraînement reposait principalement sur la sélection de dossiers, le nom du dossier servant de label de classe. En pratique, cette approche montre ses limites, car un dossier peut contenir différents types de documents.
Nouvelle approche : utilisation des champs d’index
Avec cette évolution, un champ d’index peut désormais servir à définir les classes, offrant un niveau de granularité bien supérieur.
Exemple :
Un dossier contient 1 000 documents avec un champ d’index « DocType » :
- Invoice
- Credit Note
- Delivery Slip
Au lieu de traiter l’ensemble du dossier comme une seule classe, ces valeurs peuvent désormais être utilisées comme classes distinctes, ce qui améliore la cohérence des données d’entraînement et la qualité de la classification.
Logique d’entraînement flexible
Les utilisateurs peuvent choisir entre deux approches :
- Plusieurs armoires comme base de classes
- Une seule armoire avec un champ d’index pour une classification plus fine
Le système reste ainsi adaptable aux différentes structures clients.
Extraction : un entraînement de bout en bout sans annotation
C’est sur l’extraction que la simplification est la plus marquante.
Avant
Dans l’approche classique, il fallait :
- annoter manuellement les documents
- marquer les champs
- préparer les données d’entraînement
Ce processus était chronophage et constituait souvent un frein à l’adoption.
Désormais : entraînement direct
Avec GenAI Extraction, cette étape disparaît complètement :
- L’entraînement est lancé directement dans le plugin IDP.
- Les armoires et champs d’index sont sélectionnés.
- Le système génère automatiquement un modèle.
- L’annotation n’est plus nécessaire.
Intégration dans DocuWare IDP
La logique d’entraînement repose sur une intégration étroite avec la plateforme DocuWare IDP via une interface gateway :
-
Les données d’entraînement sont transmises depuis DocuWare.
-
Les modèles sont créés dans DocuWare IDP.
-
Les résultats sont réinjectés dans DocuWare.
- Cela crée une connexion continue entre gestion documentaire et entraînement des modèles d’IA.
Bénéfices pour les entreprises
Ces évolutions ciblent un point critique : la complexité de l’entraînement des modèles IDP.
Principaux avantages :
- Création de modèles d’IA nettement plus rapide
- Absence d’environnements d’entraînement externes
- Exploitation des documents existants comme base d’entraînement
- Réduction des efforts de configuration
- Mise en production plus rapide des processus IDP
- Meilleure adoption grâce à une utilisation simplifiée
Jusqu’à présent, la complexité de création des modèles constituait un frein majeur à l’adoption de l’IDP.
Perspectives
Avec l’entraînement de bout en bout pour la classification et l’extraction, le plugin DocuWare IDP évolue vers une véritable plateforme d’entraînement IA intégrée au système de gestion documentaire.
Les prochaines évolutions renforceront cette approche, en facilitant le déploiement automatique des modèles et leur amélioration continue en conditions réelles.