Sélectionner une page

Hyperlex est une solution SaaS de contract management qui développe sa propre intelligence artificielle. Grâce à cette IA, nous pouvons proposer un service unique et performant. C’est elle qui analyse les contrats et extrait les données importantes qu’ils contiennent pour vous faciliter le quotidien au travail.

C’est l’équipe Machine Learning d’Hyperlex qui la développe.

Parmi les membres de l’équipe, Estelle. Pôle Data à elle (presque) seule, elle nous raconte son parcours et son quotidien dans cette interview exclusive.

Interview d'Estelle Raffin, Machine Learning Hyperlex

Quel est ton parcours professionnel ?

J’ai fait une classe préparatoire puis une école d’ingénieur, appelée Télécom Sud Paris. Pour ma dernière année, je suis allée à Eurecom qui proposait une spécialisation en Data Science, qu’il n’y avait pas dans mon école d’origine.

J’y ai fait un premier projet de traitement automatique du langage – ou NLP – sur l’évaluation de systèmes de détection de sentiments dans des Tweets. Ça a été ma première prise de connaissance dans ce domaine. Ça m’a beaucoup plu !

Suite à ce diplôme, je voulais continuer dans le domaine. J’ai alors été recrutée au Ministère des Armées, en tant qu’ingénieur en traitement automatique de la langue (NLP) au sein de leur équipe Data Science.

J’y ai acquis un socle de connaissances assez complet sur le NLP. Même si je ne travaillais pas sur toutes les tâches, j’ai beaucoup interagi avec. C’est à ce moment que j’ai commencé à travailler sur l’annotation.

J’ai lancé des campagnes pour récolter des données. J’ai travaillé sur la rédaction de guides d’annotation.

L’objectif ? Être suffisamment exhaustifs dans nos consignes pour que les gens qui ne sont pas familiers avec l’intelligence artificielle puissent comprendre. Peu importe qui va les lire, elles doivent être lues, comprises et interprétées de la même façon par tout le monde. Il faut qu’elles soient les plus propres possible.

J’ai ensuite été contactée par Hyperlex pour un poste qui s’appelle Data Analyst. Mais ce n’est pas exactement ce que je fais…

Quel est alors ton rôle dans l’équipe ML ?

Aujourd’hui, mon poste recouvre trois différentes thématiques :

1️⃣ Parmi elles, on trouve ce qui concerne les campagnes d’annotations dont je parlais plus tôt.

Je les effectue main dans la main avec des legal experts. Je dois définir des guidelines puis vérifier avec l’équipe et les collègues qui utilisent les données si ce qui est inscrit dans ces guides leur convient.

L’objectif est d’annoter des éléments utiles pour nos clients dans des contrats : comme des types (NDA, clause de force majeure, clause de non-concurrence, etc.) mais également des informations comme des montants, des adresses, des organisations ou encore les juridictions compétentes.

Quand tu crées tes guidelines, il doit y avoir le moins d’ambiguïté possible : toutes les réponses doivent être dedans. Il y a toujours des trous dans la raquette. On essaie donc de couvrir le maximum de cas possibles.

Ces campagnes, je les mène notamment pour agrandir la couverture de langues d’Hyperlex. Aujourd’hui, nous avons des modèles entraînés sur le français, l’anglais, l’allemand. Mais nous travaillons sur des données en espagnol, portugais, italien et bientôt sur le japonais ou encore chinois. Je dois vérifier la qualité de ce qui est fourni.

 

2️⃣ Le deuxième aspect de mon poste part d’un constat de l’équipe. Notre système a beau utiliser des architectures neuronales de plus en plus complexes, les performances varient peu. En fait, on ne progresse plus si le corpus annoté n’est pas de qualité suffisante.

Au sein de l’équipe ML, ils cherchaient donc quelqu’un qui maîtrisait l’annotation de la qualité de cette donnée, en amont.

Dans ce cadre-là, il y a un travail de repasse sur les données. Soit, comment annoter, nettoyer, avoir des statistiques de ce qui va, de ce qui ne va pas ou encore réfléchir à comment faire pour avoir le moins de pertes et s’assurer de la qualité des données qu’on veut ajouter dans nos corpus.

Lorsqu’un nouveau client signe avec Hyperlex, nous lui proposons d’effectuer un travail de reprise de l’existant. Cela veut dire que l’on récupère tous ces contrats pour les implémenter dans Hyperlex. Notre IA apprenant notamment sur les données spécifiques à un client, labelliser son historique permet que, dès la prise en main d’Hyperlex, les modèles de ML fassent des suggestions pertinentes sur ses données. Dans le cas des reprises de données, le Contract Analyst nous livre des données annotées à la demande du client. Mais ces dernières ne sont pas forcément parfaitement compatibles avec les standards que nous avions identifiés de notre côté…

 

3️⃣ Enfin, en dernière grande activité, il y a le Data Model.

Même si Hyperlex n’est pas très vieille, on se rend compte qu’on a besoin d’un référentiel de données commun à toutes les équipes. Par exemple, on peut se dire que pour tel type de clause on met telle définition ou tel format.

Car aujourd’hui, on a, d’une part, des modèles globaux, entraînés sur les modèles de différents clients, et d’autre part, des modèles locaux entraînés uniquement sur les données des clients. C’est seulement par la suite que l’on fait un arbitrage en fonction de ces deux modèles pour enrichir au plus proche de ce que le client attend.

A terme, l’objectif sera, d’abord, de réussir à identifier les attributs qui sont dans notre modèle global mais qui ne servent à personne et qu’il faudrait enlever. Ensuite, de définir les catégories que les clients demandent quasi-systématiquement et que l’on gagnerait à ajouter dans notre modèle global.

C’est un chantier que l’on met en place progressivement et qui est transverse à plusieurs équipes du Machine Learning et d’Hyperlex !

A quoi ressemble ton quotidien ?

J’ai une tâche de fond récurrente, qui est de m’occuper des legal experts, tout au long des campagnes. Cela peut signifier envoyer des sessions à annoter, vérifier qu’ils avancent, répondre à leur questions, vérifier la qualité a posteriori. Ça ne me prend pas une journée entière mais ça arrive au compte-goutte.

Souvent, j’ai des features à développer en Python, que ce soit pour ajouter/créer des sessions, ajouter des scripts dont j’ai besoin soit dans les campagnes, soit dans l’évolution du Data Model ou pour calculer des KPIs sur les usages utilisateurs ou la qualité de nos suggestions de ML.

Ça passe aussi par Metabase pour essayer de faire remonter des infos et avoir une vision de l’existant. En ce moment par exemple, on fait ré-annoter des anciennes données de classification de types de clauses. Il faut que je m’assure, dans ce que je vais donner comme session que je vais donner à annoter aux legal experts, qu’il y a une hétérogénéité dans les types de clauses. Dès les premières ré-annotations, il faut qu’on puisse obtenir un modèle équilibré et performant sur les clauses qui sont les plus utilisées par nos clients.

 

Comment travailles-tu avec les autres membres de ton équipe ?

Je suis le pôle Data à moi seule ! J’ai des stagiaires qui sont d’une grande aide. Mon rôle est de comprendre les besoins de chacun et les points de souffrance sur l’historique pour identifier ce qui peut être mis en place pour les résoudre.

 

👀 Pour aller plus loin : Dans les coulisses de l’équipe Machine Learning d’Hyperlex

Quels sont les outils que tu utilises et pourquoi ?

J’utilise Discovery, notre outil d’annotation maison, des outils de visualisation de données comme Metabase, Grafana et du Python pour toutes les tâches de développement.

Comment expliquerais-tu ton métier à un enfant de 6 ans ?

Imagine que tu fais une tarte aux pommes avec ton grand-frère. Sur la table, tu trouves des pommes, une pâte à tarte, du sucre et du beurre. 🍎

Tu souhaiterais écrire cette recette quelque part pour t’en souvenir, mais tu ne sais pas très très bien écrire. Par contre, tu as des lunettes spéciales qui voient tous ces ingrédients et qui vont réussir à les identifier, pour écrire la recette à ta place.

Ces lunettes, en plus de noter ce qu’elles voient (des pommes, du sucre, du beurre…), elles vont réussir à reconnaître s’il s’agit plutôt de sucre blanc ou de sucre roux, de beurre doux ou de beurre demi-sel, ou bien encore de pommes Golden, Granny ou Gala…

Mon travail, c’est d’aider ses lunettes à reconnaître le plus d’ingrédients possibles afin qu’elles puissent écrire le plus de recettes possible !

Que préfères-tu dans ton métier ?

La variété des mes missions. C’est quelque chose que je recherchais vraiment lorsque je cherchais un travail. Je l’avais déjà au Ministère.
Je ne fais pas que du code, je fais aussi du suivi de projet technique. Je dois m’assurer de tout faire avancer, planifier, vérifier.

En fait, j’essaie de faire en sorte que les choses soient le plus propres possibles pour faciliter la vie à tout le monde. Même si ce n’est pas moi qui utilise ces informations ensuite, c’est super satisfaisant de se dire que grâce aux données qu’on a annoté, on va voir un modèle qui fonctionne.

 

Découvrez le quotidien d’Estelle et Alaa de l’équipe Machine Learning, dans cette vidéo :

 

 

Ces articles devraient vous intéresser pour en savoir plus sur notre technologie :