Die Insider-Geschichte ft. Igor Tonko, Junior Data Scientist bei Project Legal AI.

In der Blogserie Inside Story möchten wir Ihnen einen Einblick geben, wie wir bei Hexad erfolgreiche Projekte durchführen und die Übermenschen, die hinter jedem dieser Projekte stehen, beleuchten. In dieser Ausgabe haben wir uns mit Igor Tonko, Junior Data Scientist bei Hexad, zusammengesetzt und über seine Erfahrungen bei der Arbeit am Legal AI Project gesprochen. Lassen Sie uns eintauchen!

Projektname – Legal AI

Zeitplan – Juli 2022

Rolle: Junior Data Scientist, Python-Entwickler

Das größte Lernen: Das Projekt war sehr interessant, ich habe viel gelernt und mein Wissen über Algorithmen des maschinellen Lernens angewendet. Das Team besteht aus hochqualifizierten Fachleuten mit jahrelanger Erfahrung und einem ausgeprägten Programmierstil und -prinzipien.

Igors Prozess und Erfahrung: Ich war als Data Scientist an einem juristischen KI-Projekt beteiligt. Wir entwickelten eine Webanwendung für die automatische Auswertung von Rechtsdokumenten. Eine der größten Herausforderungen war von Anfang an das Lesen von Dokumenten in verschiedenen Formaten, wie z.B. .doc, .xlsx, .pdf… Das Lesen von Microsoft Word- und Excel-Dateien ist nicht sehr kompliziert, aber PDF-Dateien haben eine schwer zu verarbeitende Formatierung.

 Nachdem wir viele verschiedene Lösungen ausprobiert hatten, entschieden wir uns für einen externen PDF-Reader in Kombination mit einem Computer-Vision-Modell zum Lesen von Tabellen.

Das Lesen von Dokumenten ist nur ein erster Schritt. Der nächste Schritt ist die Identifizierung von Komponenten im Text, wie z.B. Lizenzinformationen, Copyrights, Komponenten, Versionen. Für diese Aufgabe haben wir Modelle zur Erkennung von Namensbestandteilen (Name Entity Recognition, NER) trainiert. Die Identifizierung dieser Teile ist manuell schwer zu bewerkstelligen, daher ist es sehr schwierig, ein genaues Modell zu trainieren. Um die Genauigkeit zu erhöhen, hat das Team mehrere unterstützende Algorithmen entwickelt, die nicht auf KI basieren. Sie helfen dabei, Muster in Dokumenten zu erkennen und Unstimmigkeiten in den Modellergebnissen zu beheben.

Der nächste Schritt ist die Bewertung der Dokumente. Das ist ein Teil, an dem ich am meisten beteiligt war. Die Kunden haben eine lange Liste von Anforderungen, die von der Anwendung geprüft werden müssen. Bei einigen handelt es sich um einfache Algorithmen, bei anderen um die Unterstützung durch Sprachverarbeitungsmodelle.

Der letzte Schritt ist die Berichterstattung über das Ergebnis. Die Anwendung liefert eine .doc-Datei mit einem Bericht sowie mehrere Dateien, die die Ergebnisse der Pipelineschritte darstellen.