Leganta Logо

Plataforma de procesamiento de documentos con numerosas funciones para bancos y empresas

Creación del módulo principal de análisis sintáctico para la plataforma de gestión de contratos de Leganta, que descompone documentos jurídicos complejos en datos estructurados que permiten búsquedas e integra IA para la clasificación automatizada de campos y el análisis semántico de contenidos (preparado para DORA / NIS2).

airplane in the sky image
Empleados <50
Región Alemania
Cliente desde 2024

Visión general del cliente

Resumir artículo con IA

LEGANTA® es una empresa tecnológica con sede en Alemania que crea una plataforma de gestión de documentos diseñada para organizaciones que manejan grandes volúmenes de contratos, principalmente instituciones financieras y empresas. La idea central del producto es sencilla: en lugar de hacer que los usuarios se desplacen por documentos PDF de 60 u 80 páginas en busca de lo que necesitan, el sistema convierte esos documentos en objetos estructurados con capacidad de búsqueda que los usuarios pueden filtrar, actualizar y con los que pueden trabajar directamente. Aplicaciones importantes son las transformaciones semánticas de contratos DORA / NIS2.

Leganta acudió a Innowise para construir la pieza central de ese producto. Este módulo se encarga de tomar un PDF de contrato sin procesar y descomponerlo en secciones semánticas que su sistema interno puede procesar.

Quote icon

El equipo de Innowise se hizo cargo de una parte importante del nuevo producto desde el principio. Han trabajado muy estrechamente con nuestro jefe técnico para aprender el código base actual, ayudar a diseñar su arquitectura y han participado en la toma de decisiones arquitectónicas desde el primer día del proyecto. A lo largo de toda esta colaboración, hemos disfrutado de una buena comunicación, con frecuentes reuniones diarias y sesiones de sincronización programadas con regularidad.

Flyyo logo
Hugo Christian Rieß DIRECTOR GENERAL, LEGANTA
Letter of recommendation, Page 1

Desafío

Leganta necesitaba una forma fiable y automatizada de tomar un contrato PDF sin procesar y transformarlo en objetos estructurados, para que los expertos no tuvieran que hacerlo a mano. Crear ese módulo desde cero fue el principal reto de este proyecto.

  • Procesamiento manual que consume mucho tiempo. Antes, los empleados leían manualmente contratos enormes para extraer entidades concretas. Esta rutina manual ralentizaba las operaciones y aumentaba el riesgo de error humano.
  • Sobrecarga de información. Los acuerdos corporativos contienen cantidades excesivas de texto. Los usuarios necesitan un método para aislar objetos de datos cruciales y preparar documentos para integraciones ERP o firmas electrónicas de forma eficiente.
  • Cumplimiento legal. La modificación automatizada de textos presenta graves riesgos jurídicos. El sistema debe preservar la redacción exacta original de las cláusulas legales para evitar cualquier malentendido o litigio contractual.
  • No hay base de datos ni lógica de análisis. El cliente no tenía ninguna base para el análisis sintáctico de contratos, pero sabía que quería utilizar MongoDB. El proyecto requería crear una base de datos desde cero y construir toda la lógica central sobre ella para soportar la nueva funcionalidad.
  • Formatos de documentos imprevisibles. Los contratos corporativos vienen con estilos variados, diseños irregulares y tablas de contenido complejas. Leganta necesitaba un algoritmo fiable para extraer con precisión el texto de estos archivos PDF impredecibles.
  • Cloud e implantación local. Leganta necesitaba que la plataforma funcionara sin problemas como una solución alojada en la nube y como una instalación local en las instalaciones para satisfacer a varios clientes empresariales. La arquitectura fundacional tenía que aprovechar herramientas versátiles de contenerización como Docker y Kubernetes para soportar estos entornos de alojamiento dual desde el principio.

Solución

Para hacer frente a estos retos, Innowise creó desde cero el módulo de análisis sintáctico de documentos. El trabajo abarcó la lógica del backend, la interfaz del frontend y la infraestructura de despliegue, y los dos desarrolladores se repartieron las responsabilidades entre toda la pila.

Análisis sintáctico de documentos y segmentación semántica

La primera tarea fue construir el motor de análisis sintáctico. Empezamos integrando Apache POI para extraer el contenido de texto de los contratos PDF cargados, junto con los metadatos de formato incrustados en cada archivo. Utilizamos esos metadatos, los estilos de los encabezados, los saltos de párrafo y los pesos de las fuentes como señales que dirigen la lógica de análisis.

  • Nuestro equipo desarrolló un algoritmo de segmentación personalizado que divide el texto extraído en unidades semánticas: cláusulas individuales, secciones y campos de datos que los usuarios pueden ver, editar y con los que pueden trabajar directamente.
  • Desarrollamos las reglas de segmentación y las probamos con muestras de contratos reales hasta que los resultados fueron coherentes y significativos. Almacenamos todas las secciones analizadas como objetos estructurados en MongoDB.
  • En el frontend, hemos creado una interfaz de dos paneles. Colocamos el PDF original a la izquierda para que los usuarios siempre tuvieran a la vista el documento fuente, y construimos una tabla editable de secciones analizadas a la derecha. De este modo, los usuarios pueden comparar en cualquier momento el documento original con los datos extraídos.
  • Nuestros expertos también ampliaron una biblioteca de renderizado de PDF de código abierto porque la versión gratuita no manejaba ciertos casos extremos, así que la pusimos manualmente al nivel de las alternativas de pago.
  • También hemos creado un conjunto de herramientas de edición para que los usuarios puedan corregir el resultado cuando sea necesario. Pueden fusionar secciones que el algoritmo dividió incorrectamente, ajustar títulos, rellenar campos y cambiar cualquier parte de la estructura antes de guardarla. Hemos diseñado el flujo para que sea rápido, ya que la precisión del análisis depende de la calidad del documento y los usuarios suelen tener que hacer correcciones.

Sistema de plantillas para tipos de documentos recurrentes

Una vez que funcionó el núcleo del análisis sintáctico, construimos un sistema de plantillas sobre él. La idea surgió de una observación práctica: las organizaciones que procesan grandes volúmenes de contratos similares, como los bancos que utilizan acuerdos de préstamo estandarizados, se encuentran repetidamente con las mismas estructuras de documentos.

  • Hemos creado una función para guardar como plantilla que permite a los usuarios capturar un documento totalmente estructurado y corregido como patrón reutilizable. Cuando llega un nuevo contrato con una estructura similar, el sistema aplica automáticamente ese patrón durante el análisis sintáctico.
  • En el caso de los documentos con plantilla coincidente, la precisión en la primera pasada es sustancialmente mayor, y el tiempo que los usuarios dedican a la revisión manual disminuye en consecuencia.

Integración de IA para la clasificación de campos

Paralelamente a nuestro trabajo, los expertos del cliente desarrollaron una capa de clasificación basada en GPT que se asienta sobre las secciones analizadas. Su función es clasificar cada sección en función de los tipos de entidad internos de la plataforma.

  • Nuestra responsabilidad era asegurarnos de que la salida analizada alimentara limpiamente esa capa. Así pues, estructuramos las secciones para que estuvieran bien delimitadas y formadas, de modo que la clasificación de la IA pudiera funcionar de forma fiable sobre ellas.
  • Coordinamos estrechamente con el equipo del cliente el formato de transferencia entre las dos capas. El equipo del cliente creó la capa de inteligencia artificial. Y nuestro trabajo consistía en garantizar que las secciones analizadas se introdujeran en ella de forma limpia.

Capa de gestión de proyectos y documentos

Alrededor del motor de análisis sintáctico, construimos toda la capa de gestión con la que los usuarios interactúan día a día.

  • Nuestro equipo creó la estructura del proyecto, que permite a los usuarios agrupar documentos relacionados en una única negociación o acuerdo contractual. También creamos el flujo de carga y el ciclo de vida de los documentos, así como la capa CRUD completa para gestionar tanto los proyectos como los documentos.
  • Configuramos H2 como un almacén ligero y autónomo para credenciales y roles, manteniéndolo separado de los datos de documentos principales en MongoDB.

Infraestructura y despliegue

Escribimos Dockerfiles para todos los servicios, configuramos despliegues y servicios Kubernetes, configuramos ingress con certificados TLS, y construimos el CI pipeline en GitHub Actions para manejar los pasos de build, image push, y publish.

  • Desplegamos la plataforma en una infraestructura proporcionada por Syseleven, el socio alemán de Leganta en la nube.
  • Estructuramos la configuración en contenedores para que también fuera compatible con la implantación local en las instalaciones del cliente, que Leganta requiere para algunos de sus clientes empresariales.
Quote icon

La colaboración con el equipo de Leganta funcionó bien desde el principio. El responsable técnico del cliente estaba disponible, tenía claro lo que necesitaba y se mostraba abierto cuando teníamos una visión diferente de algo. Llegamos, nos familiarizamos con lo que ya existía y, a partir de ahí, diseñamos juntos la arquitectura. El alcance era realmente abierto al principio, y el único requisito estricto era MongoDB, por lo que muchas de las decisiones técnicas se tomaron a través de discusiones continuas. Este tipo de colaboración es más fácil cuando la otra parte conoce bien su producto, y el equipo de Leganta lo conocía. Llevamos en este proyecto desde principios de 2024, y el ritmo de trabajo se ha mantenido constante en todo momento.

Dmitry Nazarevich
Dmitry Nazarevich Director de Tecnología

Tecnologías

Backend

Java 17, Spring Bota

Frontend

Vue.js, Vuetify, TypeScript, Pinia

Base de datos (principal)

MongoDB

Base de datos (auth)

H2

Procesamiento de PDF

PDI Apache

CI

GitHub Actions

Pruebas

Pruebas unitarias, pruebas de integración (backend), Selenium (frontend)

Contenedores

Docker, Kubernetes

Equipo

Icon 1
Desarrollador de Back-End
Icon 1
Desarrollador Full-Stack
Innowise team

Resultados

Duración del proyecto
Febrero 2024 - 2025

El módulo de análisis sintáctico ya está en funcionamiento. Leganta lo utiliza como punto de entrada a su flujo de trabajo de gestión de contratos.

  • El tiempo de estructuración de los contratos se reduce de horas a segundos. Ahora el sistema produce una estructura inicial analizada en unos 10 segundos. Durante las demostraciones, un contrato completo, revisado, corregido en caso necesario y cumplimentado por completo, estaba listo en una hora. En el caso de los documentos que se ajustan a una plantilla existente, el análisis sintáctico inicial se aproxima a la versión final con mínimas correcciones.
  • Las plantillas hacen que el trabajo repetitivo sea cada vez más rápido. Una vez que un contrato se ha estructurado y guardado como plantilla, los documentos posteriores del mismo tipo reutilizan automáticamente esa estructura. Las organizaciones que manejan grandes volúmenes de acuerdos similares, entre las que los bancos son el principal objetivo, ven cómo el beneficio se multiplica en cada contrato procesado.
  • Plataforma desplegada y funcionando en producción. La plataforma es compatible tanto con la infraestructura en la nube como con la implantación in situ para los clientes empresariales que lo necesiten. El equipo ha mantenido un ciclo de publicación quincenal constante desde el inicio del proyecto.
  • Motor de transformación semántica. LEGANTA® proporciona una capacidad de transformación semántica que convierte cualquier documento en estructuras de destino libremente seleccionables. Esto permite una alineación precisa con los objetivos específicos del cliente y una integración perfecta en los entornos IT existentes. En esencia, el motor interpreta los documentos como espacios de información semántica. Los reestructura y enriquece para que las organizaciones puedan integrar los datos resultantes directamente en sus sistemas operativos, de cumplimiento, de riesgo o analíticos, sin remodelación manual.
  • Integración perfecta del sistema. La solución se complementa a la perfección con los módulos de autenticación y de otro tipo del cliente, y permite exportar datos sin problemas a otros sistemas internos.

El equipo cumplió todo lo previsto y realizó los envíos en un ciclo de publicación quincenal coherente. El módulo de análisis sintáctico se puso en marcha y Leganta empezó a utilizarlo en su flujo de trabajo diario.

Índice

Construya y mejore su plataforma con Innowise

    Contáctenos

    Reserve usted una llamada o rellene usted el siguiente formulario y nos pondremos en contacto con usted cuando hayamos procesado su solicitud.

    Envíenos un mensaje de voz
    Adjuntar documentos
    Cargar archivo

    Puede adjuntar 1 archivo de hasta 2 MB. Formatos de archivo válidos: pdf, jpg, jpeg, png.

    Al hacer clic en Enviar, autoriza a Innowise a procesar sus datos personales de acuerdo con nuestra política de privacidad. Política de privacidad para proporcionarle información relevante. Al enviar su número de teléfono, acepta que nos pongamos en contacto con usted a través de llamadas de voz, SMS y aplicaciones de mensajería. Pueden aplicarse tarifas de llamadas, mensajes y datos.

    También puede enviarnos su solicitud
    a contact@innowise.com
    ¿Qué pasa después?
    1

    Una vez recibida y procesada su solicitud, nos pondremos en contacto con usted para detallarle las necesidades de su proyecto y firmar un acuerdo de confidencialidad. Proyecto y firmaremos un acuerdo de confidencialidad.

    2

    Tras examinar sus deseos, necesidades y expectativas, nuestro equipo elaborará una propuesta de proyecto con el alcance del trabajo, el tamaño del equipo, el plazo y los costes estimados con el alcance del trabajo, el tamaño del equipo, el tiempo y las estimaciones de costes.

    3

    Concertaremos una reunión con usted para hablar de la oferta y concretar los detalles.

    4

    Por último, firmaremos un contrato y empezaremos a trabajar en su proyecto de inmediato.

    arrow