Leganta Logо

Documentverwerkings-
platform met veel mogelijkheden voor banken en bedrijven

Het bouwen van de kernmodule voor Leganta's contractbeheerplatform dat complexe juridische documenten opsplitst in gestructureerde, doorzoekbare gegevens en AI integreert voor geautomatiseerde veldclassificatie en semantische inhoudsanalyse (klaar voor DORA / NIS2).

airplane in the sky image
Werknemers <50
Regio Duitsland
Klant sinds 2024

Overzicht klanten

Artikel samenvatten met AI

LEGANTA® is een in Duitsland gevestigd technologiebedrijf dat een documentbeheerplatform ontwikkelt voor organisaties die grote hoeveelheden contracten verwerken, voornamelijk financiële instellingen en bedrijven. Het kernidee van het product is eenvoudig: in plaats van mensen door PDF's van 60 of 80 pagina's te laten scrollen op zoek naar wat ze nodig hebben, zet het systeem deze documenten om in gestructureerde, doorzoekbare objecten die gebruikers direct kunnen filteren, bijwerken en bewerken. Belangrijke toepassingen zijn semantische DORA / NIS2 contracttransformaties.

Leganta kwam naar Innowise om het centrale deel van dat product te bouwen. Deze module is verantwoordelijk voor het nemen van een ruwe contract PDF en het opsplitsen in semantische secties die hun bestaande interne systeem vervolgens kan verwerken.

Quote icon

Het Innowise team nam vanaf het begin van onze samenwerking de verantwoordelijkheid voor een aanzienlijk deel van het nieuwe product. Ze hebben zeer nauw samengewerkt met onze technical lead om de huidige code base te leren kennen, te helpen bij het ontwerpen van de architectuur en zijn vanaf dag één van het project betrokken geweest bij het maken van architectuurbeslissingen. Gedurende de hele samenwerking hebben we genoten van een goede communicatie, met frequente dagelijkse stand-up meetings en regelmatig geplande synchronisatiesessies.

Flyyo logo
Hugo Christian Rieß CEO, LEGANTA
Letter of recommendation, Page 1

Uitdaging

Leganta had een betrouwbare, geautomatiseerde manier nodig om een onbewerkt PDF-contract om te zetten in gestructureerde objecten, zodat experts dit niet met de hand hoefden te doen. Het bouwen van die module vanaf nul was de belangrijkste uitdaging voor dit project.

  • Tijdrovende handmatige verwerking. Werknemers lazen voorheen enorme contracten door om er handmatig specifieke entiteiten uit te halen. Deze handmatige routine vertraagde de werkzaamheden en verhoogde de kans op menselijke fouten.
  • Overvloed aan informatie. Zakelijke overeenkomsten bevatten buitensporige hoeveelheden tekst. Gebruikers hebben een methode nodig om cruciale gegevensobjecten te isoleren om documenten efficiënt voor te bereiden voor ERP-integraties of elektronische handtekeningen.
  • Wettelijke naleving. Geautomatiseerde tekstaanpassing brengt grote juridische risico's met zich mee. Het systeem moet de exacte originele formulering van juridische clausules behouden om verkeerde interpretaties of contractuele geschillen te voorkomen.
  • Er is geen database of parsinglogica aanwezig. De klant had geen bestaande basis voor het parsen van contracten, maar wist dat ze MongoDB wilden gebruiken. Het project vereiste het opzetten van een database vanaf nul en het bouwen van alle kernlogica bovenop de database om de nieuwe functionaliteit te ondersteunen.
  • Onvoorspelbare documentformaten. Zakelijke contracten hebben verschillende stijlen, onregelmatige lay-outs en complexe inhoudsopgaven. Leganta had een betrouwbaar algoritme nodig om tekst nauwkeurig uit deze onvoorspelbare PDF-bestanden te extraheren.
  • Cloud en installatie op locatie. Leganta eiste dat het platform naadloos zou werken als zowel een cloud-hosted oplossing als een lokale on-premise installatie om tegemoet te komen aan de wensen van verschillende zakelijke klanten. De basisarchitectuur moest gebruikmaken van veelzijdige containerisatietools zoals Docker en Kubernetes om deze dubbele hostingomgevingen vanaf het begin te ondersteunen.

Oplossing

Om deze uitdagingen aan te pakken, bouwde Innowise de document parsing module vanaf nul. Het werk omvatte backend-logica, de frontend-interface en de deployment-infrastructuur, waarbij de twee ontwikkelaars de verantwoordelijkheden over de hele stack verdeelden.

Documenten ontleden en semantisch segmenteren

De eerste taak was het bouwen van de parsing-engine. We begonnen met het integreren van Apache POI om tekstinhoud te extraheren uit geüploade PDF-contracten, samen met de opmaakmetadata die in elk bestand ingebed zijn. We gebruikten die metadata, kopstijlen, alinea-einden en lettertypegewichten als de signalen die de parsing-logica aanstuurden.

  • Ons team ontwikkelde een aangepast segmentatiealgoritme dat de geëxtraheerde tekst opdeelt in semantische eenheden: afzonderlijke clausules, secties en gegevensvelden die gebruikers vervolgens direct kunnen bekijken, bewerken en bewerken.
  • We ontwikkelden de segmentatieregels en testten ze met echte contractvoorbeelden tot de output consistent en zinvol was. We slaan alle geparseerde secties op als gestructureerde objecten in MongoDB.
  • Aan de voorkant hebben we een interface met twee vensters gebouwd. We plaatsten de originele PDF aan de linkerkant zodat gebruikers altijd het brondocument in beeld hebben, en we bouwden een bewerkbare tabel van geparseerde secties aan de rechterkant. Op deze manier kunnen gebruikers op elk moment de bron vergelijken met de geëxtraheerde gegevens.
  • Onze experts hebben ook een open-source PDF rendering library uitgebreid omdat de gratis versie bepaalde edge cases niet aankon, dus hebben we deze handmatig op het niveau van betaalde alternatieven gebracht.
  • We hebben ook een set bewerkingstools gebouwd zodat gebruikers de uitvoer waar nodig kunnen corrigeren. Ze kunnen secties samenvoegen die door het algoritme verkeerd zijn opgesplitst, titels aanpassen, velden invullen en elk deel van de structuur wijzigen voordat ze worden opgeslagen. We hebben de flow zo ontworpen dat hij snel is, omdat de nauwkeurigheid van het parsen afhangt van de kwaliteit van het document en gebruikers vaak correcties moeten aanbrengen.

Sjabloonsysteem voor terugkerende documenttypes

Toen de kern van de parsing eenmaal werkte, bouwden we er een sjabloonsysteem bovenop. Het idee kwam voort uit een praktische observatie: organisaties die grote hoeveelheden gelijksoortige contracten verwerken, zoals banken die gestandaardiseerde leningsovereenkomsten gebruiken, komen herhaaldelijk dezelfde documentstructuren tegen.

  • We hebben een save-as-template functie gebouwd waarmee gebruikers een volledig gestructureerd en gecorrigeerd document kunnen vastleggen als een herbruikbaar patroon. Als er een nieuw contract met een vergelijkbare structuur binnenkomt, past het systeem dat patroon automatisch toe tijdens het parsen.
  • Voor documenten die op sjablonen zijn afgestemd, is de nauwkeurigheid in de eerste keer aanzienlijk hoger en de tijd die gebruikers besteden aan handmatige controle daalt navenant.

AI-integratie voor veldclassificatie

Parallel aan ons werk ontwikkelden de experts van de klant een GPT-gebaseerde classificatielaag bovenop de geparseerde secties. Deze classificeert elke sectie aan de hand van de interne entiteittypen van het platform.

  • Het was onze verantwoordelijkheid om ervoor te zorgen dat de geparseerde uitvoer netjes in die laag werd ingevoerd. Dat gezegd hebbende, hebben we de secties zo gestructureerd dat ze consistent begrensd en goed gevormd zijn, zodat de AI-classificatie er betrouwbaar bovenop kan werken.
  • We hebben nauw samengewerkt met het team van de klant over het formaat van de handoff tussen de twee lagen. Het team van de klant bouwde de AI-laag aan hun kant. En het was onze taak om ervoor te zorgen dat de geparseerde secties netjes werden ingevoerd.

Laag voor project- en documentbeheer

Rondom de parsing engine hebben we de volledige managementlaag gebouwd waar gebruikers dagelijks mee werken.

  • Ons team bouwde de projectstructuur, waarmee gebruikers gerelateerde documenten kunnen groeperen onder één contractonderhandeling of overeenkomst. We hebben ook de upload- en levenscyclusflow voor documenten gebouwd en de volledige CRUD-laag voor het beheren van zowel projecten als documenten.
  • We hebben H2 opgezet als een lichtgewicht, zelfstandige opslagplaats voor referenties en rollen, gescheiden van de hoofddocumentgegevens in MongoDB.

Infrastructuur en inzet

We schreven Dockerfiles voor alle diensten, configureerden Kubernetes deployments en diensten, zetten ingress op met TLS-certificaten en bouwden de CI-pijplijn op GitHub Actions om de build-, image push- en publicatiestappen af te handelen.

  • We hebben het platform geïmplementeerd op infrastructuur van Syseleven, de Duitse cloudpartner van Leganta.
  • We structureerden de gecontaineriseerde opstelling om ook on-premise implementatie op klantlocaties te ondersteunen, wat Leganta vereist voor sommige van hun zakelijke klanten.
Quote icon

De samenwerking met het Leganta team verliep vanaf het begin goed. De technische leider van de klant was beschikbaar, duidelijk over wat ze nodig hadden en stond open als we ergens een andere kijk op hadden. We kwamen binnen, raakten vertrouwd met wat er al was en stippelden vanaf dat punt samen de architectuur uit. Het toepassingsgebied was in het begin echt open en de enige harde eis was MongoDB, dus veel van de technische beslissingen werden genomen door middel van voortdurende discussies. Dat soort samenwerking is gemakkelijker als de andere partij haar product goed kent, en dat deed het Leganta team. We werken sinds begin 2024 aan dit project en het werkritme is altijd consistent gebleven.

Dmitry Nazarevich
Dmitry Nazarevich Chief Technology Officer

Technologieën

Backend

Java 17, Spring Laars

Frontend

Vue.js, Vuetify, TypeScript, Pinia

Database (hoofd)

MongoDB

Database (auth)

H2

PDF-verwerking

Apache POI

CI

GitHub Actions

Testen

Unit tests, integratietests (backend), Selenium (frontend)

Containers

Docker, Kubernetes

Team

Icon 1
Back-End Ontwikkelaar
Icon 1
Full-Stack Ontwikkelaar
Innowise team

Resultaten

Duur van het project
Februari 2024 - 2025

De parsingmodule is live en in productie. Leganta gebruikt het als toegangspunt tot hun workflow voor contractbeheer.

  • De tijd voor het structureren van contracten is teruggebracht van uren naar seconden. Nu produceert het systeem een eerste structuur in ongeveer 10 seconden. Tijdens demo's was een volledig contract, beoordeeld, waar nodig gecorrigeerd en volledig ingevuld, binnen een uur klaar. Voor documenten die overeenkomen met een bestaand sjabloon, komt de initiële parse dicht in de buurt van de definitieve versie met minimale correctie die nodig is.
  • Sjablonen maken repetitief werk elke keer sneller. Zodra een contract is gestructureerd en opgeslagen als sjabloon, hergebruiken volgende documenten van hetzelfde type automatisch die structuur. Organisaties die grote hoeveelheden gelijksoortige overeenkomsten afhandelen, waarbij banken het voornaamste doelwit zijn, zien het voordeel zich samenvoegen in elk verwerkt contract.
  • Platform ingezet en draait in productie. Het platform ondersteunt zowel cloudinfrastructuur als on-premise implementatie voor zakelijke klanten die dat nodig hebben. Het team heeft sinds de start van het project een consistente tweewekelijkse releasecyclus aangehouden.
  • Semantische transformatie-engine. LEGANTA® biedt een semantische transformatiemogelijkheid die elk document omzet in vrij te kiezen doelstructuren. Dit maakt nauwkeurige afstemming op klantspecifieke doelstellingen en naadloze integratie in bestaande IT landschappen mogelijk. In de kern interpreteert de engine documenten als semantische informatieruimten. Het herstructureert en verrijkt ze zodat organisaties de resulterende gegevens direct kunnen opnemen in hun operationele, compliance-, risico- of analytische systemen, zonder handmatige aanpassingen.
  • Naadloze systeemintegratie. De oplossing sluit naadloos aan op de bestaande verificatie- en andere modules van de klant en maakt vlotte gegevensexports naar andere interne systemen mogelijk.

Het team leverde alles wat gepland was en verzond het volgens een consistente tweewekelijkse releasecyclus. De parsingmodule ging live en Leganta begon deze te gebruiken in hun dagelijkse workflow voor contracten.

Inhoudsopgave

Bouw en verbeter uw platform met Innowise

    Contacteer ons

    Boek een gesprek of vul het onderstaande formulier in en we nemen contact met je op zodra we je aanvraag hebben verwerkt.

    Stuur ons een spraakbericht
    Documenten bijvoegen
    Bestand uploaden

    Je kunt 1 bestand van maximaal 2 MB bijvoegen. Geldige bestandsformaten: pdf, jpg, jpeg, png.

    Door op Verzenden te klikken, stemt u ermee in dat Innowise uw persoonsgegevens verwerkt volgens onze Privacybeleid om u van relevante informatie te voorzien. Door je telefoonnummer op te geven, ga je ermee akkoord dat we contact met je opnemen via telefoongesprekken, sms en messaging-apps. Bellen, berichten en datatarieven kunnen van toepassing zijn.

    U kunt ons ook uw verzoek sturen
    naar contact@innowise.com
    Wat gebeurt er nu?
    1

    Zodra we je aanvraag hebben ontvangen en verwerkt, nemen we contact met je op om de details van je projectbehoeften en tekenen we een NDA om vertrouwelijkheid te garanderen.

    2

    Na het bestuderen van uw wensen, behoeften en verwachtingen zal ons team een projectvoorstel opstellen met de omvang van het werk, de teamgrootte, de tijd en de geschatte kosten voorstel met de omvang van het werk, de grootte van het team, de tijd en de geschatte kosten.

    3

    We zullen een afspraak met je maken om het aanbod te bespreken en de details vast te leggen.

    4

    Tot slot tekenen we een contract en gaan we meteen aan de slag met je project.

    arrow