Hyperlex ist eine SaaS-Lösung für Vertragsmanagement, die ihre eigene künstliche Intelligenz entwickelt. Dank dieser KI können wir einen einzigartigen und leistungsstarken Service anbieten. Sie ist es, die Verträge analysiert und die darin enthaltenen wichtigen Daten extrahiert, um Ihnen den Arbeitsalltag zu erleichtern.
Sie wird vom Machine-Learning-Team von Hyperlex entwickelt.
Zu den Teammitgliedern gehört auch Estelle. Als Pôle Data (fast) allein erzählt sie uns in diesem Exklusivinterview von ihrem Werdegang und ihrem Alltag.
Wie sieht dein beruflicher Werdegang aus?
Ich besuchte eine Vorbereitungsklasse und anschließend eine Ingenieurschule namens Télécom Sud Paris. In meinem letzten Jahr ging ich auf die Eurecom, die eine Spezialisierung auf Data Science anbot, die es an meiner ursprünglichen Schule nicht gab.
Dort machte ich ein erstes Projekt im Bereich der maschinellen Sprachverarbeitung - oder NLP -, bei dem es um die Bewertung von Systemen zur Erkennung von Gefühlen in Tweets ging. Das war mein erster Einblick in diesen Bereich. Es hat mir sehr gefallen!
Nach meinem Abschluss wollte ich in diesem Bereich weiterarbeiten. Ich wurde dann vom französischen Militärministerium als Ingenieurin für automatische Sprachverarbeitung (NLP) in ihrem Data Science Team eingestellt.
Dort habe ich mir eine ziemlich umfassende Wissensgrundlage über NLP angeeignet. Auch wenn ich nicht an allen Aufgaben arbeitete, interagierte ich viel damit. Zu dieser Zeit begann ich, an der Annotation zu arbeiten.
Ich habe Kampagnen gestartet, um Daten zu sammeln. Ich habe an der Erstellung von Anmerkungsleitfäden gearbeitet.
Was ist das Ziel? In unseren Anweisungen so ausführlich zu sein, dass auch Menschen, die nicht mit künstlicher Intelligenz vertraut sind, sie verstehen können. Egal, wer sie liest, sie müssen von jedem auf die gleiche Weise gelesen, verstanden und interpretiert werden. Sie müssen so sauber wie möglich sein.
Ich wurde dann von Hyperlex auf eine Stelle angesprochen, die sich Data Analyst nannte. Aber das ist nicht genau das, was ich mache ...
Was ist dann deine Rolle im ML-Team?
Heute umfasst meine Position drei verschiedene Themenbereiche:
1️⃣ Dazu gehört, was mit den Annotationskampagnen zu tun hat, von denen ich vorhin gesprochen habe.
Ich führe sie Hand in Hand mit Rechtsexperten durch. Ich muss Richtlinien festlegen und dann mit dem Team und den Kollegen, die die Daten verwenden, überprüfen, ob das, was in diesen Richtlinien steht, für sie in Ordnung ist.
Ziel ist es , für unsere Kunden nützliche Elemente in Verträgen zu annotieren: wie Typen (NDA, Klausel über höhere Gewalt, Wettbewerbsverbot usw.), aber auch Informationen wie Beträge, Adressen, Organisationen oder auch zuständige Gerichte.
Wenn du deine Guidelines erstellst, sollte es so wenig Unklarheiten wie möglich geben: Alle Antworten müssen drin stehen. Es gibt immer Lücken. Wir versuchen daher, so viele Fälle wie möglich abzudecken.
Diese Kampagnen führe ich unter anderem durch, um die Sprachabdeckung von Hyperlex zu vergrößern. Heute haben wir Modelle, die auf Französisch, Englisch und Deutsch trainiert sind. Wir arbeiten aber auch an Daten in Spanisch, Portugiesisch, Italienisch und bald auch in Japanisch oder Chinesisch. Ich muss die Qualität der gelieferten Daten überprüfen.
2️⃣ Der zweite Aspekt meiner Stelle geht von einer Feststellung des Teams aus. Unser System verwendet zwar immer komplexere neuronale Architekturen, aber die Leistung ändert sich kaum. Tatsächlich macht man keine Fortschritte mehr, wenn der annotierte Korpus nicht von ausreichender Qualität ist.
Innerhalb des ML-Teams suchten sie daher jemanden, der die Annotation der Qualität dieser Daten im Vorfeld beherrschte.
In diesem Rahmen gibt es eine Bügelarbeit an den Daten. Entweder, wie man annotiert, bereinigt, Statistiken darüber hat, was geht, was nicht geht, oder auch darüber nachdenkt, wie man möglichst wenig Verlust macht und die Qualität der Daten sicherstellt, die wir in unsere Korpora aufnehmen wollen.
Wenn ein neuer Kunde bei Hyperlex unterschreibt, bieten wir ihm an, eine Übernahme der bestehenden Verträge durchzuführen. Das bedeutet, dass wir alle diese Verträge abrufen, um sie in Hyperlex zu implementieren. Da unsere KI insbesondere aus den spezifischen Daten eines Kunden lernt, ermöglicht die Kennzeichnung seiner Historie, dass die ML-Modelle bereits bei der Einarbeitung in Hyperlex relevante Vorschläge zu seinen Daten machen. Im Falle von Datenübernahmen liefert uns der Contract Analyst auf Kundenwunsch annotierte Daten. Diese sind jedoch nicht unbedingt vollkommen kompatibel mit den Standards, die wir unsererseits identifiziert hatten...
3️⃣ Als letzte große Aktivität gibt es schließlich das Datenmodell .
Auch wenn Hyperlex noch nicht sehr alt ist, merkt man, dass man ein gemeinsames Datenrepository für alle Teams braucht. Zum Beispiel kann man sich sagen, dass für diese Art von Klausel diese Definition oder dieses Format gesetzt wird.
Denn heute hat man einerseits globale Modelle, die auf den Modellen verschiedener Kunden trainiert sind, und andererseits lokale Modelle, die nur auf den Daten der Kunden trainiert sind. Erst später trifft man eine Arbitrage auf der Grundlage dieser beiden Modelle, um so nah wie möglich an dem anzureichern, was der Kunde erwartet.
Langfristig wird das Ziel darin bestehen, erstens erfolgreich die Attribute zu identifizieren, die in unserem globalen Modell enthalten sind, aber niemandem nützen und daher entfernt werden sollten. Zweitens, die Kategorien zu definieren, die Kunden fast systematisch nachfragen und die wir besser in unser globales Modell aufnehmen sollten.
Das ist eine Baustelle, die wir nach und nach einrichten und die übergreifend für mehrere Teams von Machine Learning und Hyperlex ist!
Wie sieht dein Alltag aus?
Ich habe eine wiederkehrende Hintergrundaufgabe, die darin besteht, mich während der gesamten Kampagne um die Legal Experts zu kümmern. Das kann bedeuten, Sitzungen zum Kommentieren zu schicken, zu überprüfen, wie sie vorankommen, ihre Fragen zu beantworten, die Qualität im Nachhinein zu überprüfen. Das nimmt nicht einen ganzen Tag in Anspruch, aber es kommt tröpfchenweise.
Oft muss ich Features in Python entwickeln, sei es, um Sitzungen hinzuzufügen/zu erstellen, Skripte hinzuzufügen, die ich entweder in den Kampagnen oder bei der Entwicklung des Datenmodells benötige oder um KPIs über die Nutzungsverhalten der Nutzer oder die Qualität unserer ML-Vorschläge zu berechnen.
Es läuft auch über Metabase, um zu versuchen, Informationen hochzuladen und einen Überblick über die vorhandenen Daten zu erhalten. Im Moment lassen wir beispielsweise alte Daten zur Klassifizierung von Klauselarten neu annotieren. Ich muss bei den Sitzungen, die ich den Legal Experts zur Annotation gebe, sicherstellen, dass es eine Heterogenität bei den Klauselarten gibt. Schon bei den ersten Neuannotierungen müssen wir ein ausgewogenes und leistungsfähiges Modell für die Klauseln erhalten, die von unseren Kunden am häufigsten verwendet werden.
Wie arbeitest du mit den anderen Mitgliedern deines Teams zusammen?
Ich bin der Pole Data für mich allein! Ich habe Praktikantinnen und Praktikanten, die eine große Hilfe sind. Meine Aufgabe ist es, die Bedürfnisse jedes Einzelnen und die Punkte, an denen die Historie leidet, zu verstehen, um herauszufinden, was zur Lösung dieser Probleme eingesetzt werden kann.
👀 Weiterführende Informationen : Hinter den Kulissen des Machine-Learning-Teams von Hyperlex
Welche Hilfsmittel benutzt du und warum?
Ich verwende Discovery, unser hauseigenes Annotationstool, Datenvisualisierungstools wie Metabase, Grafana und Python für alle Entwicklungsaufgaben.
Wie würden Sie einem sechsjährigen Kind Ihren Beruf erklären?
Stell dir vor, du backst mit deinem großen Bruder einen Apfelkuchen. Auf dem Tisch findest du Äpfel, einen Kuchenteig, Zucker und Butter. 🍎
Du würdest das Rezept gerne irgendwo aufschreiben, um dich daran zu erinnern, aber du kannst nicht sehr gut schreiben. Du hast aber eine Spezialbrille, die all diese Zutaten sieht und sie identifizieren kann, um das Rezept für dich aufzuschreiben.
Diese Brille notiert nicht nur, was sie sieht (Äpfel, Zucker, Butter ...), sondern erkennt auch, ob es sich eher um weißen oder braunen Zucker, um süße oder halb-salzige Butter oder um Golden-, Granny- oder Gala-Äpfel handelt...
Meine Aufgabe ist es, ihrer Brille zu helfen, so viele Zutaten wie möglich zu erkennen, damit sie so viele Rezepte wie möglich schreiben kann!
Was gefällt dir an deinem Beruf am besten?
Die Vielfalt meiner Aufgaben. Das war etwas, wonach ich bei meiner Arbeitssuche wirklich gesucht habe. Das hatte ich bereits im Ministerium.
Ich mache nicht nur Code, sondern auch die Überwachung von technischen Projekten. Ich muss dafür sorgen, dass alles vorangeht, planen und überprüfen.
Eigentlich versuche ich, die Dinge so sauber wie möglich zu halten, um allen das Leben leichter zu machen. Auch wenn es nicht ich bin, der diese Informationen später verwendet, ist es super befriedigend, wenn man sich sagt, dass man dank der Daten, die man annotiert hat, ein Modell sehen wird, das funktioniert.
Erfahren Sie in diesem Video mehr über den Alltag von Estelle und Alaa aus dem Machine Learning Team:
Diese Artikel sollten Sie interessieren, wenn Sie mehr über unsere Technologie erfahren möchten :
- Automatische Handschriftenerkennung im elektronischen Vertragsmanagement
- Entdeckung der maschinellen Sprachverarbeitung (ALT): Klassifizierung von Texten (Pt. 1)