Leganta Logо

Piattaforma di elaborazione documenti ricca di funzioni per banche e imprese

Creazione del modulo di parsing di base per la piattaforma di gestione dei contratti di Leganta, che scompone i documenti legali complessi in dati strutturati e ricercabili e integra l'intelligenza artificiale per la classificazione automatica dei campi e l'analisi semantica dei contenuti (DORA / NIS2 ready).

airplane in the sky image
Dipendenti <50
Regione Germania
Cliente da 2024

Panoramica del cliente

Riassumere l'articolo con AI

LEGANTA® è un'azienda tecnologica con sede in Germania che sta costruendo una piattaforma di gestione dei documenti pensata per le organizzazioni che gestiscono grandi volumi di contratti, principalmente istituzioni finanziarie e imprese. L'idea di base del prodotto è semplice: invece di far scorrere le persone su PDF di 60 o 80 pagine alla ricerca di ciò che serve, il sistema converte questi documenti in oggetti strutturati e ricercabili che gli utenti possono filtrare, aggiornare e lavorare direttamente. Applicazioni importanti sono le trasformazioni semantiche dei contratti DORA / NIS2.

Leganta si è rivolta a Innowise per costruire il pezzo centrale di questo prodotto. Questo modulo è responsabile dell'acquisizione di un contratto PDF grezzo e della sua scomposizione in sezioni semantiche che possono essere elaborate dal sistema interno esistente.

Quote icon

Il team di Innowise ha assunto la responsabilità di una parte significativa del nuovo prodotto fin dall'inizio del nostro impegno. Ha lavorato a stretto contatto con il nostro responsabile tecnico per apprendere la base di codice attuale, assistere nella progettazione dell'architettura e partecipare alle decisioni architettoniche fin dal primo giorno del progetto. Nel corso dell'intera collaborazione, abbiamo goduto di una buona comunicazione, con frequenti riunioni giornaliere di standup e sessioni di sincronizzazione regolarmente programmate.

Flyyo logo
Hugo Christian Rieß CEO, LEGANTA
Letter of recommendation, Page 1

Sfida

Leganta aveva bisogno di un modo affidabile e automatizzato per prendere un contratto PDF grezzo e trasformarlo in oggetti strutturati, in modo che gli esperti non dovessero farlo a mano. Costruire questo modulo da zero è stata la sfida principale di questo progetto.

  • Elaborazione manuale che richiede molto tempo. In precedenza, i dipendenti leggevano manualmente contratti enormi per estrarre entità specifiche. Questa routine manuale rallentava le operazioni e aumentava il rischio di errori umani.
  • Sovraccarico di informazioni. Gli accordi aziendali contengono quantità eccessive di testo. Gli utenti hanno bisogno di un metodo per isolare gli oggetti di dati cruciali e preparare in modo efficiente i documenti per le integrazioni ERP o le firme elettroniche.
  • Conformità legale. La modifica automatica del testo presenta gravi rischi legali. Il sistema deve preservare l'esatta formulazione originale delle clausole legali per evitare qualsiasi interpretazione errata o controversia contrattuale.
  • Non è presente alcuna logica di database o di parsing. Il cliente non disponeva di una base esistente per l'analisi dei contratti, ma sapeva di voler utilizzare MongoDB. Il progetto ha richiesto la creazione di un database da zero e la costruzione di tutta la logica di base per supportare la nuova funzionalità.
  • Formati dei documenti imprevedibili. I contratti aziendali sono caratterizzati da stili diversi, layout irregolari e tabelle complesse. Leganta aveva bisogno di un algoritmo affidabile per estrarre con precisione il testo da questi file PDF imprevedibili.
  • Cloud e la distribuzione on-premise. Leganta richiedeva che la piattaforma funzionasse senza problemi sia come soluzione ospitata nel cloud che come installazione locale on-premise per soddisfare i vari clienti aziendali. L'architettura di base doveva sfruttare strumenti di containerizzazione versatili come Docker e Kubernetes per supportare questi ambienti di doppio hosting fin dall'inizio.

Soluzione

Per affrontare queste sfide, Innowise ha costruito il modulo di analisi dei documenti da zero. Il lavoro ha riguardato la logica del backend, l'interfaccia del frontend e l'infrastruttura di distribuzione, con i due sviluppatori che si sono divisi le responsabilità sull'intero stack.

Parsing di documenti e segmentazione semantica

Il primo compito è stato quello di costruire il motore di parsing. Abbiamo iniziato integrando Apache POI per estrarre il contenuto testuale dai contratti PDF caricati, insieme ai metadati di formattazione incorporati in ogni file. Abbiamo usato questi metadati, gli stili delle intestazioni, le interruzioni di paragrafo e i pesi dei caratteri come segnali che guidano la logica di parsing.

  • Il nostro team ha sviluppato un algoritmo di segmentazione personalizzato che suddivide il testo estratto in unità semantiche: singole clausole, sezioni e campi di dati che gli utenti possono visualizzare, modificare e lavorare direttamente.
  • Abbiamo sviluppato le regole di segmentazione e le abbiamo testate su campioni di contratti reali, fino a ottenere risultati coerenti e significativi. Tutte le sezioni analizzate vengono memorizzate come oggetti strutturati in MongoDB.
  • Sul frontend, abbiamo costruito un'interfaccia a due pannelli. Abbiamo collocato il PDF originale sulla sinistra, in modo che gli utenti abbiano sempre sotto controllo il documento di origine, e abbiamo costruito una tabella modificabile delle sezioni analizzate sulla destra. In questo modo, gli utenti possono confrontare la fonte con i dati estratti in qualsiasi momento.
  • I nostri esperti hanno anche esteso una libreria di rendering PDF open-source perché la versione gratuita non riusciva a gestire alcuni casi limite, quindi l'abbiamo portata manualmente al livello delle alternative a pagamento.
  • Abbiamo anche creato una serie di strumenti di editing per consentire agli utenti di correggere l'output dove necessario. Possono unire le sezioni che l'algoritmo ha diviso in modo errato, regolare i titoli, riempire i campi e modificare qualsiasi parte della struttura prima di salvare. Il flusso è stato progettato per essere veloce, poiché l'accuratezza del parsing dipende dalla qualità del documento e gli utenti devono spesso apportare correzioni.

Sistema di modelli per i tipi di documenti ricorrenti

Una volta che il parsing di base ha funzionato, abbiamo costruito un sistema di template su di esso. L'idea è nata da un'osservazione pratica: le organizzazioni che elaborano grandi volumi di contratti simili, come le banche che utilizzano contratti di prestito standardizzati, incontrano ripetutamente le stesse strutture documentali.

  • Abbiamo costruito una funzione di salvataggio come modello che consente agli utenti di catturare un documento completamente strutturato e corretto come modello riutilizzabile. Quando arriva un nuovo contratto con una struttura simile, il sistema applica automaticamente quel modello durante il parsing.
  • Per i documenti abbinati ai modelli, l'accuratezza al primo passaggio è sostanzialmente maggiore e il tempo che gli utenti dedicano alla revisione manuale diminuisce di conseguenza.

Integrazione dell'intelligenza artificiale per la classificazione dei campi

Parallelamente al nostro lavoro, gli esperti del cliente hanno sviluppato un livello di classificazione basato su GPT che si colloca sopra le sezioni analizzate. Il suo compito è quello di classificare ogni sezione rispetto ai tipi di entità interni alla piattaforma.

  • La nostra responsabilità era quella di garantire che l'output analizzato confluisse in quel livello in modo pulito. Per questo motivo, abbiamo strutturato le sezioni in modo che fossero coerentemente delimitate e ben formate, in modo che la classificazione dell'intelligenza artificiale potesse lavorare in modo affidabile su di esse.
  • Ci siamo coordinati strettamente con il team del cliente sul formato di passaggio tra i due livelli. Il team del cliente ha costruito il livello AI sul proprio lato. Il nostro compito era quello di garantire che le sezioni analizzate vi confluissero in modo pulito.

Livello di gestione dei progetti e dei documenti

Intorno al motore di parsing, abbiamo costruito l'intero livello di gestione con cui gli utenti interagiscono quotidianamente.

  • Il nostro team ha realizzato la struttura del progetto, che consente agli utenti di raggruppare documenti correlati nell'ambito di un'unica trattativa o accordo contrattuale. Abbiamo anche realizzato il flusso di caricamento e di ciclo di vita dei documenti e il livello CRUD completo per la gestione dei progetti e dei documenti.
  • Abbiamo configurato H2 come un archivio leggero e autonomo per le credenziali e i ruoli, mantenendolo separato dai dati principali dei documenti in MongoDB.

Infrastruttura e implementazione

Abbiamo scritto i file Docker per tutti i servizi, configurato le distribuzioni e i servizi Kubernetes, configurato l'ingress con i certificati TLS e costruito la pipeline CI su GitHub Actions per gestire le fasi di compilazione, push delle immagini e pubblicazione.

  • Abbiamo implementato la piattaforma su un'infrastruttura fornita da Syseleven, il partner tedesco di Leganta per il cloud.
  • Abbiamo strutturato la configurazione containerizzata per supportare anche l'implementazione on-premise presso le sedi dei clienti, che Leganta richiede per alcuni dei suoi clienti aziendali.
Quote icon

La collaborazione con il team di Leganta ha funzionato bene fin dall'inizio. Il responsabile tecnico del cliente era disponibile, chiaro su ciò di cui aveva bisogno e aperto quando avevamo una visione diversa di qualcosa. Siamo arrivati, abbiamo familiarizzato con quello che c'era già e da quel momento abbiamo progettato l'architettura insieme. All'inizio l'ambito era davvero aperto e l'unico requisito fondamentale era MongoDB, quindi molte decisioni tecniche sono state prese attraverso una discussione continua. Questo tipo di collaborazione è più facile quando l'altra parte conosce bene il proprio prodotto, e il team di Leganta lo conosceva. Lavoriamo a questo progetto dall'inizio del 2024 e il ritmo di lavoro è rimasto costante.

Dmitry Nazarevich
Dmitry Nazarevich Direttore tecnologico

Tecnologie

Backend

Java 17, avvio Spring

Frontend

Vue.js, Vuetify, TypeScript, Pinia

Database (principale)

MongoDB

Database (auth)

H2

Elaborazione in PDF

Apache POI

CI

GitHub Actions

Test

Test unitari, test di integrazione (backend), Selenium (frontend)

Contenitori

Docker, Kubernetes

Team

Icon 1
Sviluppatore Back-End
Icon 1
Sviluppatore full-stack
Innowise team

Risultati

Durata del progetto
Febbraio 2024 - 2025

Il modulo di parsing è attivo e in produzione. Leganta lo utilizza come punto di ingresso nel proprio flusso di lavoro di gestione dei contratti.

  • Il tempo di strutturazione del contratto è stato ridotto da ore a secondi. Ora il sistema produce una struttura iniziale analizzata in circa 10 secondi. Durante le dimostrazioni, un contratto completo, rivisto, corretto dove necessario e completamente compilato, era pronto in un'ora. Per i documenti che corrispondono a un modello esistente, il parsing iniziale si avvicina alla versione finale con una correzione minima.
  • I modelli rendono ogni volta più veloce il lavoro ripetitivo. Una volta che un contratto è stato strutturato e salvato come modello, i documenti successivi dello stesso tipo riutilizzano automaticamente quella struttura. Le organizzazioni che gestiscono elevati volumi di contratti simili, e le banche sono il target principale, vedono i benefici estendersi a tutti i contratti elaborati.
  • Piattaforma distribuita e funzionante in produzione. La piattaforma supporta sia l'infrastruttura cloud che l'implementazione on-premise per i clienti aziendali che ne hanno bisogno. Dall'inizio del progetto, il team ha mantenuto un ciclo di rilascio bisettimanale costante.
  • Motore di trasformazione semantica. LEGANTA® offre una capacità di trasformazione semantica che converte qualsiasi documento in strutture di destinazione liberamente selezionabili. Ciò consente un allineamento preciso con gli obiettivi specifici del cliente e una perfetta integrazione nei paesaggi IT esistenti. Il motore interpreta i documenti come spazi di informazione semantica. Li ristruttura e li arricchisce in modo che le organizzazioni possano incorporare i dati risultanti direttamente nei loro sistemi operativi, di conformità, di rischio o analitici, senza rimodellamento manuale.
  • Integrazione perfetta del sistema. La soluzione si integra perfettamente con l'autenticazione e gli altri moduli esistenti del cliente e consente di esportare senza problemi i dati verso altri sistemi interni.

Il team ha consegnato tutto ciò che era stato pianificato e spedito con un ciclo di rilascio bisettimanale. Il modulo di parsing è diventato operativo e Leganta ha iniziato a utilizzarlo nel suo flusso di lavoro quotidiano.

Indice dei contenuti

Costruire e migliorare la propria piattaforma con Innowise

    Contattateci

    Prenota una chiamata oppure compilate il modulo sottostante e sarete ricontattati una volta elaborata la vostra richiesta.

    Inviaci un messaggio vocale
    Allegare i documenti
    Caricare il file

    È possibile allegare 1 file di dimensioni massime di 2 MB. Formati di file validi: pdf, jpg, jpeg, png.

    Facendo clic su Invia, l'utente acconsente al trattamento dei propri dati personali da parte di Innowise in base alla nostra Informativa sulla privacy per fornirvi informazioni pertinenti. Inviando il vostro numero di telefono, accettate che possiamo contattarvi tramite chiamate vocali, SMS e applicazioni di messaggistica. Potrebbero essere applicate tariffe per chiamate, messaggi e dati.

    Potete anche inviarci la vostra richiesta
    a contact@innowise.com
    Cosa succede dopo?
    1

    Una volta ricevuta ed elaborata la vostra richiesta, vi contatteremo per illustrarvi le esigenze del vostro progetto. Progetto e firmare un NDA per garantire la riservatezza.

    2

    Dopo aver esaminato i vostri desideri, le vostre esigenze e le vostre aspettative, il nostro team elaborerà una proposta di progetto con l'ambito di lavoro, le dimensioni del team, i tempi e le stime dei costi stimati.

    3

    Organizzeremo un incontro con voi per discutere l'offerta e definire i dettagli.

    4

    Infine, firmeremo un contratto e inizieremo subito a lavorare sul vostro progetto.

    arrow