Leganta Logо

Leistungsstarke Dokumentenverarbeitungsplattform für Banken und Unternehmen

Aufbau des Kern-Parsing-Moduls für die Vertragsmanagement-Plattform von Leganta, das komplexe juristische Dokumente in strukturierte, durchsuchbare Daten zerlegt und KI für die automatische Feldklassifizierung und semantische Inhaltsanalyse integriert (DORA / NIS2 ready).

airplane in the sky image
Angestellte <50
Region Deutschland
Kunde seit 2024

Kundenübersicht

Artikel mit KI zusammenfassen

LEGANTA® ist ein in Deutschland ansässiges Technologieunternehmen, das eine Dokumentenmanagement-Plattform für Organisationen entwickelt, die große Mengen an Verträgen bearbeiten, vor allem für Finanzinstitute und Unternehmen. Die Kernidee des Produkts ist einfach: Anstatt die Mitarbeiter durch 60- oder 80-seitige PDFs blättern zu lassen, um das zu finden, was sie brauchen, konvertiert das System diese Dokumente in strukturierte, durchsuchbare Objekte, die die Benutzer filtern, aktualisieren und direkt bearbeiten können. Wichtige Anwendungen sind semantische DORA / NIS2-Vertragstransformationen.

Leganta wandte sich an Innowise, um das Kernstück dieses Produkts zu entwickeln. Dieses Modul ist dafür verantwortlich, ein rohes Vertrags-PDF in semantische Abschnitte zu zerlegen, die das bestehende interne System dann verarbeiten kann.

Quote icon

Das Innowise-Team hat von Anfang an einen großen Teil des neuen Produkts übernommen. Sie haben sehr eng mit unserem technischen Leiter zusammengearbeitet, um die aktuelle Codebasis kennenzulernen, bei der Gestaltung der Architektur zu helfen und waren vom ersten Tag des Projekts an in architektonische Entscheidungen eingebunden. Während der gesamten Zusammenarbeit haben wir eine gute Kommunikation genossen, mit häufigen täglichen Standup-Meetings und regelmäßig angesetzten Synchronisierungssitzungen.

Flyyo logo
Hugo Christian Rieß CEO, LEGANTA
Letter of recommendation, Page 1

Herausforderung

Leganta benötigte eine zuverlässige, automatisierte Methode, um einen PDF-Rohvertrag in strukturierte Objekte umzuwandeln, damit die Experten dies nicht von Hand tun mussten. Dieses Modul von Grund auf zu entwickeln, war die größte Herausforderung bei diesem Projekt.

  • Zeitaufwendige manuelle Bearbeitung. Früher lasen die Mitarbeiter umfangreiche Verträge durch, um bestimmte Einheiten manuell zu extrahieren. Diese manuelle Routine verlangsamte den Betrieb und erhöhte das Risiko menschlicher Fehler.
  • Informationsüberlastung. Unternehmensvereinbarungen enthalten große Mengen an Text. Die Benutzer benötigen eine Methode zur Isolierung wichtiger Datenobjekte, um Dokumente für ERP-Integrationen oder elektronische Signaturen effizient vorzubereiten.
  • Einhaltung der Rechtsvorschriften. Die automatische Änderung von Texten birgt erhebliche rechtliche Risiken. Das System muss den exakten Originalwortlaut von Rechtsklauseln beibehalten, um Fehlinterpretationen und Vertragsstreitigkeiten zu vermeiden.
  • Keine Datenbank oder Parsing-Logik vorhanden. Der Kunde hatte keine bestehende Grundlage für die Vertragsanalyse, wusste aber, dass er MongoDB verwenden wollte. Für das Projekt musste eine Datenbank von Grund auf neu eingerichtet und die gesamte Kernlogik darauf aufgebaut werden, um die neue Funktionalität zu unterstützen.
  • Unvorhersehbare Dokumentenformate. Unternehmensverträge weisen unterschiedliche Stile, unregelmäßige Layouts und komplexe Inhaltsverzeichnisse auf. Leganta benötigte einen zuverlässigen Algorithmus, um Text aus diesen unberechenbaren PDF-Dateien präzise zu extrahieren.
  • Cloud und Einsatz vor Ort. Leganta verlangte, dass die Plattform nahtlos sowohl als in der Cloud gehostete Lösung als auch als lokale Vor-Ort-Installation funktioniert, um verschiedene Unternehmenskunden zufriedenzustellen. Die grundlegende Architektur musste vielseitige Containerisierungstools wie Docker und Kubernetes nutzen, um diese beiden Hosting-Umgebungen von Anfang an zu unterstützen.

Lösung

Um diese Herausforderungen zu bewältigen, entwickelte Innowise das Modul für die Dokumentenanalyse von Grund auf neu. Die Arbeit umfasste die Backend-Logik, die Frontend-Schnittstelle und die Bereitstellungsinfrastruktur, wobei sich die beiden Entwickler die Verantwortung für den gesamten Stack teilten.

Dokumenten-Parsing und semantische Segmentierung

Die erste Aufgabe war der Aufbau der Parsing-Engine. Wir begannen mit der Integration von Apache POI, um Textinhalte aus hochgeladenen PDF-Verträgen zu extrahieren, zusammen mit den in jeder Datei eingebetteten Formatierungsmetadaten. Wir verwendeten diese Metadaten, Überschriftenstile, Absatzumbrüche und Schriftschnitte als Signale, die die Parsing-Logik steuern.

  • Unser Team hat einen benutzerdefinierten Segmentierungsalgorithmus entwickelt, der den extrahierten Text in semantische Einheiten zerlegt: einzelne Klauseln, Abschnitte und Datenfelder, die die Benutzer dann direkt anzeigen, bearbeiten und bearbeiten können.
  • Wir entwickelten die Segmentierungsregeln und testeten sie an echten Vertragsbeispielen, bis die Ergebnisse konsistent und aussagekräftig waren. Wir speichern alle geparsten Abschnitte als strukturierte Objekte in MongoDB.
  • Am Frontend haben wir eine zweigeteilte Oberfläche erstellt. Wir haben das Original-PDF auf der linken Seite platziert, damit die Benutzer immer das Quelldokument im Blick haben, und wir haben eine bearbeitbare Tabelle der geparsten Abschnitte auf der rechten Seite erstellt. Auf diese Weise können die Benutzer jederzeit die Quelle mit den extrahierten Daten vergleichen.
  • Unsere Experten haben auch eine Open-Source-Bibliothek für das PDF-Rendering erweitert, da die kostenlose Version bestimmte Randfälle nicht bewältigen konnte, so dass wir sie manuell auf das Niveau der kostenpflichtigen Alternativen gebracht haben.
  • Wir haben auch eine Reihe von Bearbeitungswerkzeugen entwickelt, mit denen die Benutzer die Ausgabe bei Bedarf korrigieren können. Sie können Abschnitte zusammenführen, die der Algorithmus falsch aufgeteilt hat, Titel anpassen, Felder ausfüllen und jeden Teil der Struktur vor dem Speichern ändern. Wir haben den Ablauf so gestaltet, dass er schnell ist, da die Genauigkeit der Analyse von der Qualität des Dokuments abhängt und die Benutzer häufig Korrekturen vornehmen müssen.

Vorlagensystem für wiederkehrende Dokumenttypen

Sobald das Kernparsing funktionierte, bauten wir darauf ein Vorlagensystem auf. Die Idee entstand aus einer praktischen Beobachtung: Organisationen, die große Mengen ähnlicher Verträge verarbeiten, wie z. B. Banken, die standardisierte Darlehensverträge verwenden, stoßen immer wieder auf die gleichen Dokumentenstrukturen.

  • Wir haben eine Funktion zum Speichern als Vorlage entwickelt, mit der Benutzer ein vollständig strukturiertes und korrigiertes Dokument als wiederverwendbares Muster erfassen können. Wenn ein neuer Vertrag mit einer ähnlichen Struktur eingeht, wendet das System dieses Muster beim Parsen automatisch an.
  • Bei Dokumenten mit Vorlagenabgleich ist die Genauigkeit beim ersten Durchgang wesentlich höher, und der Zeitaufwand für die manuelle Überprüfung sinkt entsprechend.

AI-Integration für die Feldklassifizierung

Parallel zu unserer Arbeit entwickelten die Experten des Kunden eine GPT-basierte Klassifizierungsschicht, die auf die geparsten Abschnitte aufgesetzt wird. Ihre Aufgabe ist es, jeden Abschnitt anhand der internen Entitätstypen der Plattform zu klassifizieren.

  • Unsere Aufgabe war es, dafür zu sorgen, dass die geparste Ausgabe sauber in diese Schicht einfließt. Das heißt, wir haben die Abschnitte so strukturiert, dass sie einheitlich begrenzt und wohlgeformt sind, damit die KI-Klassifikation zuverlässig darauf aufbauen kann.
  • Wir stimmten uns eng mit dem Team des Kunden über das Übergabeformat zwischen den beiden Schichten ab. Das Team des Kunden erstellte die KI-Ebene auf seiner Seite. Unsere Aufgabe war es, dafür zu sorgen, dass die geparsten Abschnitte sauber in die Ebene eingespeist werden.

Projekt- und Dokumentenmanagement-Ebene

Um die Parsing-Engine herum haben wir die komplette Verwaltungsschicht aufgebaut, mit der die Benutzer täglich interagieren.

  • Unser Team hat die Projektstruktur entwickelt, die es den Benutzern ermöglicht, verwandte Dokumente unter einer einzigen Vertragsverhandlung oder einem einzigen Geschäft zusammenzufassen. Wir haben auch den Dokumenten-Upload und den Lebenszyklusfluss sowie die vollständige CRUD-Schicht für die Verwaltung von Projekten und Dokumenten entwickelt.
  • Wir haben H2 als leichtgewichtigen, eigenständigen Speicher für Berechtigungsnachweise und Rollen eingerichtet, der von den Hauptdokumentendaten in MongoDB getrennt ist.

Infrastruktur und Einsatz

Wir schrieben Dockerfiles für alle Dienste, konfigurierten Kubernetes-Bereitstellungen und -Dienste, richteten Ingress mit TLS-Zertifikaten ein und bauten die CI-Pipeline auf GitHub Actions auf, um die Schritte Build, Image-Push und Veröffentlichung durchzuführen.

  • Wir haben die Plattform auf der Infrastruktur von Syseleven, dem deutschen Cloud-Partner von Leganta, bereitgestellt.
  • Wir strukturierten das containerisierte Setup so, dass es auch den Einsatz vor Ort beim Kunden unterstützt, was Leganta für einige seiner Unternehmenskunden benötigt.
Quote icon

Die Zusammenarbeit mit dem Leganta-Team hat von Anfang an gut funktioniert. Der technische Leiter des Kunden war verfügbar, wusste genau, was er brauchte, und war offen, wenn wir eine andere Sichtweise auf etwas hatten. Wir kamen, machten uns mit dem Vorhandenen vertraut und erarbeiteten von da an gemeinsam die Architektur. Der Umfang war zu Beginn wirklich offen, und die einzige feste Vorgabe war MongoDB, so dass viele der technischen Entscheidungen durch laufende Diskussionen getroffen wurden. Diese Art der Zusammenarbeit ist einfacher, wenn die andere Seite ihr Produkt gut kennt, und das tat das Leganta-Team. Wir arbeiten seit Anfang 2024 an diesem Projekt, und der Arbeitsrhythmus ist immer gleich geblieben.

Dmitry Nazarevich
Dmitry Nazarevich Technischer Leiter

Technologien

Backend

Java 17, Spring Stiefel

Frontend

Vue.js, Vuetify, TypeScript, Pinia

Datenbank (Haupt)

MongoDB

Datenbank (auth)

H2

PDF-Verarbeitung

Apache POI

CI

GitHub Actions

Testen

Unit-Tests, Integrationstests (Backend), Selenium (Frontend)

Container

Docker, Kubernetes

Team

Icon 1
Back-End-Entwickler
Icon 1
Full-Stack-Entwickler
das Innowise-Team

Ergebnisse

Projektdauer
Februar 2024 - 2025

Das Parsing-Modul ist im Einsatz und in Produktion. Leganta nutzt es als Einstiegspunkt in ihren Vertragsmanagement-Workflow.

  • Die Zeit für die Vertragsstrukturierung wurde von Stunden auf Sekunden reduziert. Jetzt erzeugt das System eine erste geparste Struktur in etwa 10 Sekunden. Bei den Demos war ein vollständiger Vertrag, der überprüft, bei Bedarf korrigiert und vollständig ausgefüllt wurde, innerhalb einer Stunde fertig. Bei Dokumenten, die mit einer vorhandenen Vorlage übereinstimmen, entspricht die anfängliche Analyse nahezu der endgültigen Version, wobei nur minimale Korrekturen erforderlich sind.
  • Vorlagen beschleunigen die sich wiederholenden Arbeiten jedes Mal. Sobald ein Vertrag strukturiert und als Vorlage gespeichert wurde, wird diese Struktur bei nachfolgenden Dokumenten desselben Typs automatisch wiederverwendet. Organisationen, die ein hohes Volumen an ähnlichen Verträgen bearbeiten, wobei Banken die Hauptzielgruppe sind, sehen den Nutzen bei jedem bearbeiteten Vertrag.
  • Die Plattform wird eingesetzt und läuft in der Produktion. Die Plattform unterstützt sowohl die Cloud-Infrastruktur als auch die Bereitstellung vor Ort für Unternehmenskunden, die dies benötigen. Das Team hat seit Beginn des Projekts einen konsistenten zweiwöchentlichen Veröffentlichungszyklus beibehalten.
  • Semantische Transformationsmaschine. LEGANTA® bietet eine semantische Transformationsfunktion, die jedes Dokument in frei wählbare Zielstrukturen umwandelt. Dies ermöglicht eine präzise Ausrichtung auf kundenspezifische Ziele und eine nahtlose Integration in bestehende IT-Landschaften. Im Kern interpretiert die Engine die Dokumente als semantische Informationsräume. Sie strukturiert sie um und reichert sie an, so dass Unternehmen die resultierenden Daten direkt in ihre Betriebs-, Compliance-, Risiko- oder Analysesysteme einbetten können, ohne sie manuell umgestalten zu müssen.
  • Nahtlose Systemintegration. Die Lösung lässt sich problemlos mit den bestehenden Authentifizierungs- und anderen Modulen des Kunden kombinieren und ermöglicht einen reibungslosen Datenexport in andere interne Systeme.

Das Team lieferte alles, was geplant war, in einem konsistenten zweiwöchentlichen Release-Zyklus aus. Das Parsing-Modul wurde in Betrieb genommen, und Leganta begann, es im täglichen Vertragsablauf zu verwenden.

Inhaltsübersicht

Erstellen und verbessern Sie Ihre Plattform mit Innowise

    Kontaktformular

    Termin vereinbaren oder füllen Sie das Formular aus. Wir kontaktieren Sie, sobald wir Ihre Anfrage bearbeitet haben.

    Sprachnachricht senden
    Datei beifügen
    Datei hochladen

    Sie können 1 Datei mit bis zu 2 MB anhängen. Gültige Dateiformate: pdf, jpg, jpeg, png.

    Mit dem Klicken auf Senden erklären Sie sich damit einverstanden, dass Innowise Ihre personenbezogenen Daten gemäß unserer Datenschutzerklärung verarbeitet, um Ihnen relevante Informationen bereitzustellen. Mit Angabe Ihrer Telefonnummer stimmen Sie zu, dass wir Sie per Sprachanruf, SMS oder Messaging-Apps kontaktieren. Es können Gebühren für Anrufe, Nachrichten und Datenübertragung anfallen.

    Sie können uns auch kontaktieren
    bis hin zu contact@innowise.com
    Wie geht es weiter?
    1

    Sobald wir Ihre Anfrage erhalten und geprüft haben, melden wir uns bei Ihnen, klären erste Fragen und unterzeichnen bei Bedarf ein NDA, um die Vertraulichkeit zu gewährleisten.

    2

    Nach genauer Prüfung Ihrer Anforderungen, Bedürfnisse und Erwartungen wird unser Team einen Projektvorschlag mit Angaben zu Arbeitsumfang, Teamgröße, Zeitaufwand und Kosten erstellen.

    3

    Wir vereinbaren einen Termin, um das Angebot gemeinsam zu besprechen und alle Details festzulegen.

    4

    Abschließend unterzeichnen wir den Vertrag und starten umgehend mit der Umsetzung Ihres Projekts.

    arrow