Plate-forme de traitement de documents riche en fonctionnalités pour les banques et les entreprises

Construction du module d'analyse pour la plateforme de gestion des contrats de Leganta qui décompose les documents juridiques complexes en données structurées et consultables et intègre l'IA pour la classification automatisée des champs et l'analyse sémantique du contenu (prêt pour DORA / NIS2).

Industrie Technologies de l'information, Juridique

Salariés <50

Région Allemagne

Services Développement du backend, Développement de l'interface utilisateur

Client depuis 2024

Vue d'ensemble du client

Résumé par l'IA

LEGANTA® est une société technologique basée en Allemagne qui développe une plateforme de gestion de documents destinée aux organisations qui traitent de gros volumes de contrats, principalement les institutions financières et les entreprises. L'idée de base du produit est simple : au lieu de faire défiler des documents PDF de 60 ou 80 pages à la recherche de ce dont ils ont besoin, le système convertit ces documents en objets structurés et consultables que les utilisateurs peuvent filtrer, mettre à jour et utiliser directement. Les principales applications sont les transformations sémantiques des contrats DORA/NIS2.

Leganta a fait appel à Innowise pour construire la pièce maîtresse de ce produit. Ce module est chargé de prendre un contrat PDF brut et de le décomposer en sections sémantiques que leur système interne existant peut ensuite traiter.

The Innowise team took ownership of a significant portion of the new product right from the start of our engagement. They have worked very closely with our technical lead to learn the current code base, assist in designing its architecture, and have been involved in making architectural decisions since day one of the project. Over the entire course of this collaboration, we have enjoyed good communication, with frequent daily standup meetings and regularly scheduled sync sessions.

Hugo Christian Rieß PDG, LEGANTA

Défi

Leganta avait besoin d'un moyen fiable et automatisé pour prendre un contrat PDF brut et le transformer en objets structurés, afin que les experts n'aient pas à le faire à la main. La création de ce module à partir de zéro a été le principal défi de ce projet.

Traitement manuel fastidieux. Auparavant, les employés lisaient d'énormes contrats pour en extraire manuellement des entités spécifiques. Cette routine manuelle ralentissait les opérations et augmentait le risque d'erreur humaine.
Surcharge d'informations. Les accords d'entreprise contiennent des quantités excessives de texte. Les utilisateurs ont besoin d'une méthode pour isoler les objets de données essentiels afin de préparer efficacement les documents pour les intégrations ERP ou les signatures électroniques.
Conformité légale. La modification automatisée de textes présente de graves risques juridiques. Le système doit préserver la formulation originale exacte des clauses juridiques afin d'éviter toute interprétation erronée ou tout litige contractuel.

Aucune base de données ou logique d'analyse n'est en place. Le client n'avait aucune base existante pour l'analyse des contrats, mais il savait qu'il voulait utiliser MongoDB. Le projet a nécessité la mise en place d'une base de données à partir de zéro et la construction de toute la logique de base au-dessus de celle-ci pour prendre en charge la nouvelle fonctionnalité.
Formats de documents imprévisibles. Les contrats d'entreprise présentent des styles variés, des mises en page irrégulières et des tables des matières complexes. Leganta avait besoin d'un algorithme fiable pour extraire avec précision le texte de ces fichiers PDF imprévisibles.
Cloud et déploiement sur site. Leganta avait besoin que la plateforme fonctionne de manière transparente à la fois comme une solution hébergée dans le cloud et comme une installation locale sur site pour satisfaire les différents clients de l'entreprise. L'architecture fondamentale devait s'appuyer sur des outils de conteneurisation polyvalents tels que Docker et Kubernetes pour prendre en charge ces environnements d'hébergement double dès le départ.

Solution

Pour relever ces défis, Innowise a créé le module d'analyse de documents à partir de zéro. Le travail a porté sur la logique du backend, l'interface du frontend et l'infrastructure de déploiement, les deux développeurs se partageant les responsabilités sur l'ensemble de la pile.

Analyse de documents et segmentation sémantique

La première tâche a consisté à construire le moteur d'analyse. Nous avons commencé par intégrer Apache POI pour extraire le contenu textuel des contrats PDF téléchargés, ainsi que les métadonnées de formatage intégrées dans chaque fichier. Nous avons utilisé ces métadonnées, les styles d'en-tête, les sauts de paragraphe et les graisses de police comme signaux pour piloter la logique d'analyse.

Notre équipe a développé un algorithme de segmentation personnalisé qui décompose le texte extrait en unités sémantiques : clauses, sections et champs de données individuels que les utilisateurs peuvent ensuite visualiser, éditer et travailler directement.
Nous avons développé les règles de segmentation et les avons testées sur des échantillons de contrats réels jusqu'à ce que les résultats soient cohérents et significatifs. Nous stockons toutes les sections analysées sous forme d'objets structurés dans MongoDB.
Sur le frontend, nous avons construit une interface à deux volets. Nous avons placé le PDF original sur la gauche pour que les utilisateurs aient toujours le document source en vue, et nous avons construit un tableau modifiable des sections analysées sur la droite. De cette façon, les utilisateurs peuvent comparer la source aux données extraites à tout moment.
Nos experts ont également étendu une bibliothèque de rendu PDF open-source parce que la version gratuite ne gérait pas certains cas limites, et nous l'avons donc amenée manuellement au niveau des alternatives payantes.
Nous avons également mis au point un ensemble d'outils d'édition afin que les utilisateurs puissent corriger le résultat si nécessaire. Ils peuvent fusionner les sections que l'algorithme a mal découpées, ajuster les titres, remplir les champs et modifier n'importe quelle partie de la structure avant de l'enregistrer. Nous avons conçu le flux pour qu'il soit rapide, car la précision de l'analyse dépend de la qualité du document et les utilisateurs doivent souvent apporter des corrections.

Système de modèles pour les types de documents récurrents

Une fois que l'analyse de base a fonctionné, nous avons construit un système de modèles par-dessus. L'idée est venue d'une observation pratique : les organisations qui traitent de grands volumes de contrats similaires, comme les banques qui utilisent des accords de prêt standardisés, rencontrent régulièrement les mêmes structures de documents.

Nous avons créé une fonction de sauvegarde en tant que modèle qui permet aux utilisateurs de capturer un document entièrement structuré et corrigé en tant que modèle réutilisable. Lorsqu'un nouveau contrat avec une structure similaire arrive, le système applique automatiquement ce modèle lors de l'analyse.
Pour les documents correspondant à un modèle, la précision au premier passage est nettement plus élevée, et le temps que les utilisateurs consacrent à la révision manuelle diminue en conséquence.

Intégration de l'IA pour la classification des champs

Parallèlement à notre travail, les experts du client ont développé une couche de classification basée sur GPT qui se trouve au-dessus des sections analysées. Son rôle est de classer chaque section en fonction des types d'entités internes de la plateforme.

Notre responsabilité était de veiller à ce que la sortie analysée alimente proprement cette couche. Cela dit, nous avons structuré les sections de manière à ce qu'elles soient constamment délimitées et bien formées, afin que la classification de l'IA puisse fonctionner de manière fiable au-dessus d'elles.
Nous avons travaillé en étroite collaboration avec l'équipe du client sur le format de transfert entre les deux couches. L'équipe du client a construit la couche d'IA de son côté. Notre travail consistait à veiller à ce que les sections analysées l'alimentent proprement.

Couche de gestion des projets et des documents

Autour du moteur d'analyse, nous avons construit la couche de gestion complète avec laquelle les utilisateurs interagissent au quotidien.

Notre équipe a conçu la structure du projet, qui permet aux utilisateurs de regrouper des documents connexes dans le cadre d'une négociation contractuelle ou d'un accord unique. Nous avons également développé le flux de téléchargement et de cycle de vie des documents, ainsi que la couche CRUD complète pour la gestion des projets et des documents.
Nous avons configuré H2 comme un magasin léger et autonome pour les informations d'identification et les rôles, en le séparant des données principales du document dans MongoDB.

Infrastructure et déploiement

Nous avons écrit des Dockerfiles pour tous les services, configuré les déploiements et les services Kubernetes, mis en place l'ingress avec des certificats TLS, et construit le pipeline CI sur GitHub Actions pour gérer les étapes de construction, de poussée d'image et de publication.

Nous avons déployé la plateforme sur l'infrastructure fournie par Syseleven, le partenaire allemand de Leganta pour l'informatique en nuage.
Nous avons structuré la configuration conteneurisée de manière à prendre également en charge le déploiement sur site chez les clients, ce dont Leganta a besoin pour certaines de ses entreprises clientes.

La collaboration avec l'équipe Leganta a bien fonctionné dès le départ. Le responsable technique du client était disponible, clair sur ce dont il avait besoin et ouvert lorsque nous avions un point de vue différent sur quelque chose. Nous sommes arrivés, nous nous sommes familiarisés avec ce qui existait déjà et, à partir de là, nous avons conçu l'architecture ensemble. Le champ d'application était réellement ouvert au début, et la seule exigence absolue était MongoDB, de sorte qu'une grande partie des décisions techniques ont été prises à la suite de discussions continues. Ce type de collaboration est plus facile lorsque l'autre partie connaît bien son produit, ce qui était le cas de l'équipe de Leganta. Nous travaillons sur ce projet depuis le début de l'année 2024, et le rythme de travail est resté constant tout au long du projet.

Dmitry Nazarevich Directeur général de la technologie

Technologies

Backend

Java 17, Spring Boot

Frontend

Vue.js, Vuetify, TypeScript, Pinia

Base de données (principale)

MongoDB

Base de données (authentification)

Traitement des PDF

POI Apache

CI

GitHub Actions

Test

Tests unitaires, tests d'intégration (backend), Selenium (frontend)

Conteneurs

Docker, Kubernetes

Équipe

Développeur Back-End

Développeur Full-Stack

Résultats

Durée du projet

Février 2024 - 2025

Le module d'analyse est opérationnel et en production. Leganta l'utilise comme point d'entrée dans son flux de travail de gestion des contrats.

Le temps de structuration des contrats est passé de quelques heures à quelques secondes. Aujourd'hui, le système produit une structure initiale analysée en 10 secondes environ. Lors des démonstrations, un contrat complet, revu, corrigé le cas échéant et entièrement rempli, était prêt en moins d'une heure. Pour les documents qui correspondent à un modèle existant, l'analyse initiale est proche de la version finale, avec un minimum de corrections.
Les modèles permettent d'accélérer le travail répétitif à chaque fois. Une fois qu'un contrat a été structuré et enregistré comme modèle, les documents ultérieurs du même type réutilisent automatiquement cette structure. Les organisations qui traitent des volumes importants d'accords similaires, les banques étant la cible principale, voient les avantages s'accumuler pour chaque contrat traité.
Plateforme déployée et fonctionnant en production. La plateforme prend en charge à la fois l'infrastructure en nuage et le déploiement sur site pour les entreprises qui en ont besoin. L'équipe a maintenu un cycle de publication toutes les deux semaines depuis le début du projet.
Moteur de transformation sémantique. LEGANTA® offre une capacité de transformation sémantique qui permet de convertir n'importe quel document en structures cibles librement sélectionnables. Cela permet un alignement précis sur les objectifs spécifiques du client et une intégration transparente dans les paysages IT existants. À la base, le moteur interprète les documents comme des espaces d'information sémantique. Il les restructure et les enrichit afin que les organisations puissent intégrer les données résultantes directement dans leurs systèmes opérationnels, de conformité, de risque ou d'analyse, sans remodelage manuel.
Intégration transparente du système. La solution s'harmonise parfaitement avec les modules d'authentification et autres existants du client, et permet d'exporter sans problème les données vers d'autres systèmes internes.

L'équipe a livré tout ce qui avait été planifié et expédié selon un cycle de publication bihebdomadaire cohérent. Le module d'analyse a été mis en service et Leganta a commencé à l'utiliser dans son flux de travail contractuel quotidien.

Table des matières

Construisez et améliorez votre plateforme avec Innowise

Exemples de projets similaires

Contactez-nous

Réserver un appel ou remplissez le formulaire ci-dessous et nous vous contacterons dès que nous aurons traité votre demande.

Nom

Entreprise

Courriel :

Téléphone

Message

Envoyez-nous un message vocal

Joindre des documents

Charger fichier

Vous pouvez joindre un fichier d'une taille maximale de 2 Mo. Formats de fichiers valables : pdf, jpg, jpeg, png.

En cliquant sur Envoyer, vous consentez à ce qu'Innowise traite vos données personnelles conformément à notre politique de confidentialité. Politique de confidentialité pour vous fournir des informations pertinentes. En communiquant votre numéro de téléphone, vous acceptez que nous puissions vous contacter par le biais d'appels vocaux, de SMS et d'applications de messagerie. Les tarifs des appels, des messages et des données peuvent s'appliquer.

Vous pouvez également nous envoyer votre demande
à contact@innowise.com

Que se passe-t-il ensuite ?

Une fois que nous aurons reçu et traité votre demande, nous vous contacterons pour détailler les besoins de votre projet et signer un accord de confidentialité.

Après avoir examiné vos souhaits, vos besoins et vos attentes, notre équipe élaborera une proposition de projet avec l'étendue des travaux, la taille de l'équipe, les délais et les coûts estimés projet avec l'étendue des travaux, la taille de l'équipe, les délais et les coûts estimés.

Nous prendrons rendez-vous avec vous pour discuter de l'offre et régler les détails.

Enfin, nous signons un contrat et commençons immédiatement à travailler sur votre projet.