Con GenAI, seguimos desarrollando nuestra tecnología de extracción de forma sistemática. De este modo, nos centramos más en lo que realmente importa: un resultado final preciso y estructurado.
Qué cambia
Hasta ahora, la extracción clásica se basaba en un enfoque de varias etapas. Los documentos se dividían en cuadros de OCR, estos cuadros se clasificaban y, a continuación, los resultados se combinaban mediante lógica adicional para formar los campos finales.
Este enfoque funcionaba en un principio, pero conllevaba algunas limitaciones:
-
Gran dependencia de las estructuras de cuadros: Las diferencias en el diseño o en la anotación pueden afectar a la calidad
-
Anotación laboriosa: Los datos de entrenamiento deben crearse de forma muy consistente a nivel de cuadro
-
Posprocesamiento complejo: Los resultados exactos suelen depender de reglas y configuraciones adicionales
-
Uso limitado del feedback: Las correcciones de los usuarios son difíciles de utilizar directamente como datos de entrenamiento
-
Métricas limitadas: La calidad de la clasificación de los recuadros no siempre refleja la calidad del resultado final
La cuestión fundamental aquí:
Hasta ahora, el sistema optimiza principalmente los pasos intermedios, no el resultado que el usuario realmente necesita.
Lo que diferencia a GenAI Extraction
Con GenAI Extraction se produce un cambio de perspectiva fundamental.
El modelo se entrena directamente para generar los campos finales, es decir, exactamente los valores que se utilizarán posteriormente en el sistema. Los pasos intermedios, como la clasificación de cuadros, pierden importancia.
En la práctica, esto significa:
-
El documento completo se considera como contexto
-
Las definiciones de campos y las descripciones (prompts) controlan la extracción
-
El modelo proporciona los resultados finales directamente
En lugar de etiquetar fragmentos de texto individuales, el modelo interpreta el contenido de forma integral y deduce los valores adecuados a partir de él.
La diferencia clave
La diferencia entre la extracción clásica y GenAI Extraction radica en el objetivo de optimización:
-
Extracción clásica: Optimiza la clasificación de elementos individuales (p. ej., cuadros OCR)
-
GenAI Extraction: Optimiza directamente la calidad del resultado final
Esto acerca la extracción a casos de uso reales y no solo simplifica el enfoque técnico.
Por qué es importante
GenAI Extraction permite así una nueva forma de trabajar con modelos de extracción.
En lugar de ciclos de entrenamiento rígidos, se crea un proceso iterativo:
-
Definir campos: Establecer nombres de campos y prompts claros
-
Ver los resultados al instante: Obtener resultados «zero-shot» sin necesidad de entrenamiento
-
Mejorar paso a paso: Optimizar los prompts y los resultados de forma iterativa basándose en el feedback
Esto hace que el desarrollo sea más rápido, transparente y escalable, especialmente en procesos automatizados y basados en API. El enfoque se desplaza claramente del paso intermedio al resultado final, de modo que las métricas y las mejoras reflejan mejor la calidad real de la producción. Al mismo tiempo, los comentarios de los usuarios se incorporan más directamente al proceso de aprendizaje, lo que permite una optimización continua.
Tres ventajas fundamentales subrayan por qué la extracción basada en GenAI es un componente importante de nuestro nuevo enfoque:
1. Zero-Shot: extracción inmediata sin entrenamiento
Zero-Shot cambia la forma en que se inician los procesos de extracción. Permite extraer campos sin necesidad de un entrenamiento previo. El modelo utiliza únicamente el nombre del campo, la descripción (prompt) y el contenido del documento para determinar el valor más probable.
Ventajas:
-
No requiere un proceso de entrenamiento clásico
-
Los resultados están disponibles de inmediato, sin necesidad de anotaciones ni tiempos de espera
La ventaja más importante es el rápido ciclo de retroalimentación: Los campos se pueden definir, probar y mejorar directamente, incluso antes de que existan datos de entrenamiento.
Zero-Shot se basa en la inferencia generativa: el modelo interpreta el contenido en lugar de limitarse a clasificarlo. Por ello, la calidad de los prompts es decisiva.
Este enfoque funciona especialmente bien con campos estandarizados y tipos de documentos habituales. Para reglas complejas, puede complementarse con Few-Shot o entrenamiento.
2. Entrenamiento con datos existentes (p. ej., documentos de DocuWare)
En lugar de cargar documentos y anotarlos manualmente, ahora también se pueden utilizar documentos existentes para entrenar modelos.
Para ello hay dos posibilidades:
-
cargar un documento junto con el archivo JSON correspondiente
-
o crear un modelo directamente desde DocuWare
Basta con seleccionar los documentos deseados. Los valores de índice del DocuWare File Cabinet sirven entonces como anotación y base de entrenamiento.
Con una calidad de extracción comparable, esto permite crear y entrenar modelos más rápidamente.
3. Entrenamiento con validación
Otra ventaja de GenAI Extraction es el uso del feedback de la interfaz de validación para mejorar los modelos existentes.
La función de feedback correspondiente se está desarrollando actualmente y estará disponible en breve.
Cuando los usuarios corrigen los valores extraídos durante la validación, se registra este feedback y puede incorporarse a futuros ciclos de entrenamiento.
Además, la validación garantiza un paso controlado en el flujo de trabajo automatizado de IDP: los resultados se comprueban y confirman antes de su posterior procesamiento. El proceso se detiene hasta que se apruebe, de modo que solo se transmiten los datos validados.
Este sistema de feedback permite una mejora continua. Gracias al reentrenamiento periódico, el modelo se vuelve cada vez más preciso y fiable con el tiempo: un sistema adaptativo que evoluciona constantemente a medida que se utiliza.
De procesos de extracción fijos a sistemas que aprenden
GenAi Extraction marca la transición de un enfoque clásico basado en flujos de trabajo a un sistema orientado a resultados con mejora continua. Ya no se centra en pasos de procesamiento individuales, sino en la calidad del resultado final estructurado. El entrenamiento ya no es un paso independiente, sino parte de un proceso de aprendizaje continuo que se controla mediante el uso y la validación. El sistema evoluciona constantemente y se adapta a los requisitos y datos reales.
De este modo, la extracción se vuelve, en general, más sencilla, transparente y cercana a los procesos empresariales reales, con el objetivo de convertir los modelos en sistemas productivos y adaptativos que mejoran continuamente.