Las empresas procesan a diario grandes cantidades de documentos, como facturas, contratos o albaranes. Sin embargo, el verdadero valor añadido solo se genera cuando estos contenidos pueden reconocerse, clasificarse y estructurarse automáticamente para los procesos posteriores.
Con las nuevas posibilidades ampliadas del complemento IDP de DocuWare, este paso se simplifica considerablemente: los usuarios pueden entrenar modelos de IA para la clasificación y la extracción directamente en DocuWare, basándose en documentos ya existentes en el sistema y sin entornos de entrenamiento externos.
El objetivo del desarrollo es facilitar al máximo la creación y el uso de modelos de IA e integrarlos completamente en el entorno DocuWare existente.
Crear modelos de IA sin interrupciones del sistema
Un objetivo central de esta ampliación de posibilidades es que los usuarios:
-
Puedan entrenar modelos de IA directamente en DocuWare
-
Utilicen documentos existentes de los archivadores como base de entrenamiento
-
Creen modelos sin herramientas externas ni preparación de datos
-
Pongan en marcha los modelos entrenados de forma inmediata en el sistema
De este modo se crea un enfoque integral y sin fisuras, en el que se representa todo el ciclo de vida de un modelo IDP dentro de DocuWare.
El complemento IDP de DocuWare como plataforma central
El complemento IDP actúa como control central de todas las funciones del Procesamiento Inteligente de Documentos. En esta interfaz, los usuarios pueden:
-
iniciar entrenamientos para la clasificación, la extracción y la separación
-
seleccionar archivadores y campos de índice como base para el entrenamiento
-
configurar y reutilizar modelos
-
gestionar todo el ciclo de vida de los flujos de trabajo de IDP
Todos los pasos se agrupan en una interfaz unificada, lo que simplifica considerablemente el proceso de entrenamiento, hasta ahora poco uniforme.
Concepto de entrenamiento simplificado: De la configuración al uso de datos
Un cambio fundamental en el enfoque consiste en pasar de la configuración manual al aprendizaje basado en datos.
En lugar de una configuración compleja del modelo, el nuevo enfoque se basa en:
-
los fondos documentales existentes en DocuWare
-
datos de índice estructurados
-
la generación automática de datos de entrenamiento
De este modo, la calidad del modelo viene determinada cada vez más por la base de datos subyacente y menos por reglas definidas manualmente.
Splitting: División clara para una mejor clasificación y extracción
La división o Splitting, amplía el complemento DocuWare IDP con la separación automática de documentos mixtos o de varias páginas en documentos individuales y separados siguiendo una lógica.
El divisor se selecciona como agente en el complemento y procesa los documentos directamente dentro de DocuWare IDP antes de que se envíen a la clasificación y la extracción.
De herramientas externas a la integración en IDP
Antes de la integración, la división no formaba parte del complemento IDP y debía realizarse mediante herramientas externas como storageRobot o Make.com.
Mejoras en la separación de documentos
-
Menos procesamiento manual previo gracias a la eliminación de las anotaciones y la separación externa
-
Mejores resultados en la clasificación y la extracción gracias a documentos individuales bien separados
-
Integración en el complemento IDP de DocuWare sin interrupciones del sistema ni herramientas externas
Con la integración, la separación de documentos queda totalmente integrada en el flujo de trabajo y permite un procesamiento continuo y automatizado desde la captura hasta la extracción.
Clasificación: modelos más precisos gracias a datos estructurados
La clasificación de documentos es un requisito previo importante para cualquier automatización. Solo si se reconoce correctamente un tipo de documento, los procesos pueden controlarse de forma fiable.
Entrenamiento mediante archivadores y campos de índice
Hasta ahora, el entrenamiento se basaba principalmente en la selección de varios archivos, en los que el nombre del archivo servía como etiqueta de clase. Sin embargo, en la práctica, este enfoque tiene limitaciones, ya que los archivos suelen contener documentos diferentes.
Ampliación: Uso de campos de índice
Con la nueva ampliación, se puede utilizar además un campo de índice para definir clases. Esto permite alcanzar un nivel de detalle considerablemente mayor.
Ejemplo:
Un expediente contiene 1.000 documentos con el campo de índice «DocType»:
-
factura
-
nota de crédito
-
albarán
En lugar de tratar todo el expediente como una sola clase, ahora estos valores se utilizan directamente como clases independientes. Esto da lugar a datos de entrenamiento más uniformes y a mejores resultados de clasificación.
Lógica de entrenamiento flexible
Los usuarios pueden elegir entre dos enfoques:
-
varios archivadores como base de las clases
-
un único archivador más un campo de índice para una clasificación más detallada
De este modo, el sistema sigue siendo flexible y adaptable a diferentes estructuras de clientes.
Extracción: Entrenamiento de extremo a extremo sin anotación
La simplificación se hace más evidente en la extracción de documentos.
Cómo funcionaba antes
En el enfoque clásico, tras configurar un proceso de extracción
-
había que anotar los documentos manualmente
-
marcar los campos
-
preparar los datos de entrenamiento
Este paso requería mucho tiempo y a menudo suponía un obstáculo durante la implementación.
Ahora existe el entrenamiento directo
Con GenAI Extraction, este paso se elimina por completo.
Y ahora, el proceso es el siguiente:
-
el entrenamiento se inicia directamente en el complemento IDP
-
se seleccionan los archivadores y los campos de índice
-
el sistema crea automáticamente un modelo de entrenamiento
-
ya no es necesaria la anotación
Integración en DocuWare IDP
La lógica de entrenamiento se basa en la integración en la plataforma DocuWare IDP. A través de una interfaz de puerta de enlace:
-
se transfieren los datos de entrenamiento desde DocuWare
-
se crean modelos en DocuWare IDP
-
y los resultados se vuelven a poner a disposición en DocuWare
De este modo se establece una conexión permanente entre la gestión documental y el entrenamiento de IA.
Ventajas para las empresas
Las nuevas ampliaciones abordan precisamente aquellos aspectos en los que IDP solía resultar demasiado complejo hasta ahora, es decir, el entrenamiento de modelos.
Las ventajas más importantes:
-
creación de nuevos modelos de IA mucho más rápida
-
no se requieren entornos de entrenamiento externos
-
uso de documentos existentes como base de entrenamiento
-
menor esfuerzo de configuración
-
utilización más rápida de los procesos de IDP
-
mayor aceptación gracias a un manejo más sencillo
Detrás de esto se encuentra la hipótesis de que, hasta ahora, el uso de IDP ha sido limitado principalmente debido a la compleja creación de modelos.
Perspectivas de lo que está por venir
Con el entrenamiento de extremo a extremo para la clasificación y la extracción, el complemento DocuWare IDP evoluciona hacia una plataforma de entrenamiento de IA totalmente integrada dentro de la gestión documental.
Las futuras ampliaciones seguirán desarrollando este enfoque y permitirán el uso automático, así como la mejora continua de los modelos en entorno de producción.