Funktionsrik plattform för dokumentbearbetning för banker och företag

Bygga den centrala parsing-modulen för Legantas plattform för avtalshantering som bryter ner komplexa juridiska dokument till strukturerad, sökbar data och integrerar AI för automatiserad fältklassificering och semantisk innehållsanalys (DORA / NIS2 redo).

Industri Informationsteknik, Juridik

Anställda <50

Region Tyskland

Tjänster Backend utveckling, Frontend-utveckling

Kund sedan 2024

Översikt över kunder

Sammanfatta artikeln med AI

LEGANTA® är ett Tysklandsbaserat teknikföretag som bygger en plattform för dokumenthantering avsedd för organisationer som hanterar stora volymer av kontrakt, främst finansinstitut och företag. Produktens grundidé är enkel: i stället för att tvinga människor att bläddra igenom 60- eller 80-sidiga PDF-filer för att hitta det de behöver, konverterar systemet dessa dokument till strukturerade, sökbara objekt som användarna kan filtrera, uppdatera och arbeta med direkt. Viktiga tillämpningar är semantiska DORA / NIS2-kontraktstransformationer.

Leganta kom till Innowise för att bygga den centrala delen av den produkten. Denna modul ansvarar för att ta en rå avtals-PDF och bryta ner den i semantiska sektioner som deras befintliga interna system sedan kan bearbeta.

Innowise-teamet tog ansvar för en betydande del av den nya produkten redan från början av vårt engagemang. De har arbetat mycket nära vår tekniska chef för att lära sig den aktuella kodbasen, hjälpa till att utforma dess arkitektur och har varit involverade i att fatta arkitektoniska beslut sedan projektets första dag. Under hela samarbetet har vi haft en god kommunikation, med täta dagliga standup-möten och regelbundet schemalagda synkroniseringssessioner.

Hugo Christian Rieß VD, LEGANTA

Utmaning

Leganta behövde ett tillförlitligt, automatiserat sätt att ta ett rå-PDF-kontrakt och omvandla det till strukturerade objekt, så att experterna inte behövde göra det för hand. Att bygga den modulen från grunden var den största utmaningen i det här projektet.

Tidskrävande manuell bearbetning. Tidigare läste medarbetarna igenom stora kontrakt för att manuellt ta fram specifika enheter. Denna manuella rutin gjorde arbetet långsammare och ökade risken för mänskliga fel.
Överbelastning av information. Företagsavtal innehåller stora mängder text. Användarna behöver en metod för att isolera viktiga dataobjekt för att förbereda dokument för ERP-integrationer eller elektroniska signaturer på ett effektivt sätt.
Rättslig efterlevnad. Automatiserad textmodifiering innebär allvarliga juridiska risker. Systemet måste bevara den exakta ursprungliga ordalydelsen i juridiska klausuler för att förhindra feltolkningar eller avtalstvister.

Ingen databas eller parsing-logik på plats. Kunden hade ingen befintlig grund för kontraktsparsning, men visste att de ville använda MongoDB. Projektet krävde att man skapade en databas från grunden och byggde all kärnlogik ovanpå den för att stödja den nya funktionaliteten.
Oförutsägbara dokumentformat. Företagskontrakt har varierande stilar, oregelbundna layouter och komplexa innehållsförteckningar. Leganta behövde en tillförlitlig algoritm för att exakt kunna extrahera text från dessa oförutsägbara PDF-filer.
Cloud och driftsättning på plats. Leganta krävde att plattformen skulle fungera sömlöst som både en molnbaserad lösning och en lokal installation på plats för att tillfredsställa olika företagskunder. Den grundläggande arkitekturen var tvungen att utnyttja mångsidiga containeriseringsverktyg som Docker och Kubernetes för att stödja dessa dubbla hostingmiljöer från början.

Lösning

För att ta itu med dessa utmaningar byggde Innowise dokumentanalys-modulen från grunden. Arbetet omfattade backend-logik, frontend-gränssnitt och distributionsinfrastruktur, där de två utvecklarna delade upp ansvaret över hela stacken.

Parsning av dokument och semantisk segmentering

Den första uppgiften var att bygga parsingmotorn. Vi började med att integrera Apache POI för att extrahera textinnehåll från uppladdade PDF-kontrakt, tillsammans med formateringsmetadata som är inbäddade i varje fil. Vi använde dessa metadata, rubrikstilar, styckebrytningar och typsnittsvikter som de signaler som driver parsinglogiken.

Vårt team utvecklade en anpassad segmenteringsalgoritm som delar upp den extraherade texten i semantiska enheter: enskilda klausuler, avsnitt och datafält som användarna sedan kan visa, redigera och arbeta med direkt.
Vi utvecklade segmenteringsreglerna och testade dem mot verkliga kontraktsprover tills resultaten var konsekventa och meningsfulla. Vi lagrar alla analyserade avsnitt som strukturerade objekt i MongoDB.
På frontend byggde vi ett gränssnitt med två rutor. Vi placerade original-PDF:en till vänster så att användarna alltid har källdokumentet i sikte, och till höger skapade vi en redigerbar tabell med analyserade avsnitt. På så sätt kan användarna när som helst jämföra källan med de extraherade uppgifterna.
Våra experter utökade också ett PDF-renderingsbibliotek med öppen källkod eftersom gratisversionen inte hanterade vissa kantfall, så vi höjde det manuellt till samma nivå som betalda alternativ.
Vi har också byggt en uppsättning redigeringsverktyg så att användarna kan korrigera utdata där det behövs. De kan slå samman avsnitt som algoritmen delat upp felaktigt, justera titlar, fylla i fält och ändra vilken del av strukturen som helst innan de sparar. Vi har utformat flödet så att det ska vara snabbt, eftersom noggrannheten i parsningen beror på dokumentkvaliteten och användarna ofta behöver göra korrigeringar.

Mallsystem för återkommande dokumenttyper

När den grundläggande parsningen fungerade byggde vi ett mallsystem ovanpå den. Idén kom från en praktisk observation: organisationer som hanterar stora volymer av liknande avtal, t.ex. banker som använder standardiserade låneavtal, stöter upprepade gånger på samma dokumentstrukturer.

Vi byggde en funktion för att spara som mall som låter användarna spara ett fullständigt strukturerat och korrigerat dokument som ett återanvändbart mönster. När ett nytt avtal med en liknande struktur anländer tillämpar systemet mönstret automatiskt under parsningen.
För mallmatchade dokument är träffsäkerheten vid första genomgången betydligt högre och den tid som användarna lägger på manuell granskning minskar i motsvarande grad.

AI-integration för fältklassificering

Parallellt med vårt arbete utvecklade kundens experter ett GPT-baserat klassificeringslager som ligger ovanpå de analyserade avsnitten. Dess uppgift är att klassificera varje avsnitt mot plattformens interna enhetstyper.

Vårt ansvar var att se till att det analyserade utdata matades in i det lagret på ett rent sätt. Med detta sagt strukturerade vi avsnitten så att de var konsekvent avgränsade och välformade så att AI-klassificeringen kunde fungera tillförlitligt ovanpå dem.
Vi hade ett nära samarbete med kundens team när det gällde överlämningsformatet mellan de två lagren. Kundens team byggde AI-lagret på deras slut. Och vårt jobb var att se till att de analyserade avsnitten matades in i det på ett rent sätt.

Projekt- och dokumenthanteringslager

Runt parsing-motorn byggde vi det fullständiga hanteringslagret som användarna interagerar med varje dag.

Vårt team byggde projektstrukturen, som låter användare gruppera relaterade dokument tillsammans under en enda kontraktsförhandling eller affär. Vi byggde också uppladdningen av dokument och livscykelflödet samt hela CRUD-lagret för hantering av både projekt och dokument.
Vi skapade H2 som en lättviktig, fristående lagringsplats för autentiseringsuppgifter och roller, och höll den åtskild från huvuddokumentdata i MongoDB.

Infrastruktur och driftsättning

Vi skrev Dockerfiler för alla tjänster, konfigurerade Kubernetes-distributioner och -tjänster, konfigurerade ingress med TLS-certifikat och byggde CI-pipelinen på GitHub Actions för att hantera stegen build, image push och publish.

Vi driftsatte plattformen på infrastruktur som tillhandahålls av Syseleven, Legantas tyska molnpartner.
Vi strukturerade den containeriserade installationen så att den även stöder lokal driftsättning hos kunderna, vilket Leganta kräver för vissa av sina företagskunder.

Samarbetet med Leganta-teamet fungerade bra redan från början. Kundens tekniska chef var tillgänglig, tydlig med vad de behövde och öppen när vi hade en annan syn på något. Vi kom in, bekantade oss med det som redan fanns där och tänkte ut arkitekturen tillsammans från den punkten. Omfattningen var verkligen öppen i början, och det enda hårda kravet var MongoDB, så många av de tekniska besluten fattades genom löpande diskussioner. Den här typen av samarbete är enklare när den andra parten känner till sin produkt väl, vilket Leganta-teamet gjorde. Vi har arbetat med det här projektet sedan början av 2024, och arbetsrytmen har varit densamma hela tiden.

Dmitry Nazarevich Teknikchef

Teknik

Backend

Java 17, Spring Boot

Frontend

Vue.js, Vuetify, TypeScript, Pinia

Databas (huvud)

MongoDB

Databas (autentisering)

PDF-behandling

Apache POI

CI

GitHub Actions

Testning

Enhetstester, integrationstester (backend), Selenium (frontend)

Container

Docker, Kubernetes

Team

Back-End-utvecklare

Full-Stack Utvecklare

Resultat

Projektets löptid

Februari 2024 - 2025

Parsing-modulen är live och i produktion. Leganta använder den som ingångspunkt i sitt arbetsflöde för avtalshantering.

Tiden för strukturering av avtal minskas från timmar till sekunder. Nu producerar systemet en första analyserad struktur på cirka 10 sekunder. Under demonstrationerna var ett fullständigt avtal, granskat, korrigerat vid behov och fullständigt ifyllt, klart inom en timme. För dokument som matchar en befintlig mall ligger den första tolkningen nära den slutliga versionen med minimalt behov av korrigering.
Mallar gör repetitivt arbete snabbare varje gång. När ett avtal har strukturerats och sparats som en mall återanvänds strukturen automatiskt i efterföljande dokument av samma typ. Organisationer som hanterar stora volymer av liknande avtal, där banker är det primära målet, ser att fördelarna ökar för varje avtal som behandlas.
Plattformen är utplacerad och körs i produktion. Plattformen stöder både molninfrastruktur och lokal driftsättning för företagskunder som behöver det. Teamet har upprätthållit en konsekvent release-cykel varannan vecka sedan projektet startade.
Motor för semantisk omvandling. LEGANTA® tillhandahåller en semantisk omvandlingskapacitet som konverterar alla dokument till fritt valbara målstrukturer. Detta möjliggör exakt anpassning till kundspecifika mål och sömlös integration i befintliga IT-landskap. I grunden tolkar motorn dokument som semantiska informationsutrymmen. Den omstrukturerar och berikar dem så att organisationer kan bädda in de resulterande uppgifterna direkt i sina operativa, efterlevnads-, risk- eller analytiska system, utan manuell ombyggnad.
Sömlös systemintegration. Lösningen samverkar felfritt med kundens befintliga autentiserings- och andra moduler och möjliggör smidig dataexport till andra interna system.

Teamet levererade allt som planerats och levererades enligt en konsekvent release-cykel varannan vecka. Parsing-modulen togs i drift och Leganta började använda den i sitt dagliga arbetsflöde för kontrakt.

Innehållsförteckning

Bygg och förbättra din plattform med Innowise

Relaterade fall

Kontakta oss

Boka ett samtal eller fyll i formuläret nedan så återkommer vi till dig när vi har behandlat din förfrågan.

Namn

Företag

E-post

Telefon

Meddelande

Skicka ett röstmeddelande till oss

Bifoga dokument

Ladda upp filen

Du kan bifoga 1 fil på upp till 2 MB. Giltiga filformat: pdf, jpg, jpeg, png.

Genom att klicka på Skicka samtycker du till att Innowise behandlar dina personuppgifter enligt våra Integritetspolicy för att förse dig med relevant information. Genom att lämna ditt telefonnummer samtycker du till att vi kan kontakta dig via röstsamtal, SMS och meddelandeappar. Samtals-, meddelande- och datataxor kan gälla.

Du kan också skicka oss din förfrågan

till contact@innowise.com

Vad händer härnäst?

När vi har tagit emot och behandlat din förfrågan återkommer vi till dig för att beskriva dina projektbehov och undertecknar en NDA för att säkerställa sekretess.

Efter att ha undersökt dina önskemål, behov och förväntningar kommer vårt team att ta fram ett projektförslag förslag med arbetsomfattning, teamstorlek, tids- och kostnadsberäkningar.

Vi ordnar ett möte med dig för att diskutera erbjudandet och fastställa detaljerna.

Slutligen undertecknar vi ett kontrakt och börjar arbeta med ditt projekt direkt.