On les appelle les « Data Scientist », ils font partie du Machine Learning. Leur mission : construire, maintenir et faire évoluer l’IA qui permet d’automatiser la gestion et l’analyse de contrat. Qui sont-ils ? Dans notre série sur les coulisses d’une legaltech, Ahmed et Romain, Data Scientists chez Hyperlex, nous présentent leur métier et leur quotidien pour nous aider à comprendre le fonctionnement et les applications du Machine Learning dans le domaine juridique. Rencontre avec l’équipe d’experts derrière le logiciel.
Pouvez-vous présenter votre parcours et ce qui vous a motivé à rejoindre une legaltech comme Hyperlex ?
Ahmed : Je suis arrivé au début de l’aventure Hyperlex, il y a 2 ans, à l’issue de mon école d’ingénieur. Le sujet m’a beaucoup plu, sachant que j’avais déjà travaillé sur de l’analyse et sur l’exploitation d’un gros corpus de texte . C’était l’opportunité de travailler sur l’état de l’art du NLP appliqué au juridique : détection de clause, classification de document, extraction d’informations dans les contrats, etc.
Faisant partie des technologies d’intelligence artificielle, le NLP consiste à traiter et analyser du texte brut pour accomplir un certain nombre de tâches : comprendre de quoi parle ce texte, repérer des éléments dans ce texte, identifier des séquences récurrentes…
Par opposition à un formulaire, un texte brut n’est pas toujours précis, il peut même être ambigu, ce qui introduit de la complexité. Sa structure linguistique implique plusieurs dimensions, syntaxique, grammaticale et sémantique, que le NLP a pour mission de décoder.
Romain : J’ai eu l’occasion de découvrir l’intelligence artificielle et le machine learning lors d’une année de césure en école d’ingénieur, qui m’a permis de faire des stages en recherche dans ce domaine et de me spécialiser dès le départ. La rencontre avec Hyperlex s’est faite par hasard sur Internet… rejoindre ce projet s’est fait tout naturellement.
Pourquoi le juridique ?
R : Ce n’est pas le juridique à proprement parler qui m’a attiré. Dans le domaine de l’analyse de texte, les contrats sont présents en grand nombre et sont, en plus, des documents relativement formatés, avec des règles implicites et explicites : ce sont donc de très bons candidats au Machine Learning. On sent qu’on peut accomplir des choses intéressantes avec l’IA dans ce domaine.
A : Le juridique est un domaine ambitieux et intéressant pour appliquer les méthodes de compréhension de texte. Les informations juridiques sont complexes et cruciales. Il y a de gros enjeux derrière. Prenez les montants et les dates d’échéance par exemple. C’est là où le NLP prend toute son importance : il permet de repérer des éléments clés dans le contrat.
Quels sont les différents métiers du Machine Learning ? Pouvez-vous nous en dire un peu plus sur votre équipe ?
Notre équipe se compose de trois profils et partage son temps entre R&D et projets clients.
- Les Research Scientists : chercheurs, ils travaillent sur des sujets plutôt théoriques. Leur mission est de modéliser et concevoir de nouvelles façons d’extraire des données.
- Les Data Engineers : ils implémentent et déploient des algorithmes(1) de Machine Learning.
- Les Data Scientists : ils font le lien entre la recherche théorique et le monde appliqué. Ils intègrent les contraintes métier, mettent en pratique les algorithmes en adaptant des concepts très théoriques à leur secteur d’activité, préparent le travail pour les data engineers… Ils doivent donc bien comprendre la recherche d’un côté et les besoins du métier de l’autre.
Qu’est-ce que le machine learning et comment ça marche ?
Il s’agit des techniques qui permettent d’identifier un ensemble de similarités cachées dans un jeu de données et de reconnaître ainsi des modèles : on parle de « patterns ». La machine apprend et évolue. Elle utilise ces patterns pour faire des classements et de la prédiction sur de nouveaux jeux de données.
→ Voir notre article sur le fonctionnement de l’IA dans la gestion de contrat
Le nerf de la guerre, c’est la donnée. En effet, pour trouver des corrélations entre les données il faut d’abord qu’il y ait des données ! Celles-ci sont au départ fournies par les experts métier, c’est-à-dire les juristes. Eux seuls peuvent indiquer aux Data Scientists les contraintes et les spécificités propres à leur domaine : ce qui fait la différence entre deux contrats, entre deux clauses, entre deux notions juridiques… Par la suite, le machine learning va être capable d’identifier des similarités au sein d’un jeu de contrats et de reconnaître automatiquement les différents éléments types. C’est ce qui va faire gagner en temps et en visibilité à l’utilisateur qui manipule des masses de contrats.
Un utilisateur peut lui-même entraîner la machine et la faire évoluer alors…
Oui. Dans l’interface d’Hyperlex, à l’instant zéro, on donne à l’utilisateur des modèles déjà entraînés mais on lui donne aussi la possibilité d’entraîner des modèles sur ses propres contrats, en annotant ses documents sur les informations qui l’intéressent tout particulièrement. En validant ses fiches de synthèse, il permet à l’IA d’apprendre et de lui apporter des résultats encore plus précis et rapides par la suite.
Parallèlement, notre équipe Customer Success va s’occuper d’entraîner l’IA aux spécificités des contrats du client durant la phase d’onboarding afin de lui livrer une solution parfaitement exercée sur sa contrathèque.
Quelles sont vos interactions avec le Customer Success ? Pouvez-vous nous donner un exemple de projet ?
Nous intervenons au niveau de la reprise d’existant. Au départ, le Customer Success identifie avec le client les caractéristiques qu’il veut suivre dans ses contrats afin d’entraîner la machine à les reconnaître. L’équipe du Machine Learning met en place les outils spécifiques au cas client pour permettre au Customer Success de réaliser cette reprise le plus rapidement et efficacement possible.
Chaque cas d’usage peut nous aider à mettre en place de nouvelles fonctionnalités qu’on va déployer par la suite dans Hyperlex. Cela participe à l’évolutivité de la solution qui nous permet de livrer une API toujours plus fiable et mieux entraînée.
Combien faut-il de contrats pour entraîner une IA ?
Pour pouvoir identifier des patterns, l’IA a besoin de plus d’un contrat bien sûr. Mais il n’y a pas de chiffre figé, tout simplement parce que cela dépend du problème, de la tâche à effectuer. Il faut prendre en compte la variabilité, la complexité et la qualité du support – sur ce dernier point, on doit tenir compte de la composante OCR(2).
Quelles sont les qualités d’un bon Data Scientist ?
Être honnête et pragmatique avec les données. Pour ne pas se tromper, il faut avoir conscience que le domaine du Machine Learning ne permet pas encore d’atteindre des résultats parfaits, il est évolutif. C’est pourquoi le Data Scientist doit savoir se montrer créatif et ambitieux : beaucoup de choses restent à faire. Il existe de multiples façon de “craquer” un problème, le tout est d’être capable d’imaginer la solution.
Par ailleurs, si le Data Scientist n’est pas là pour démontrer un théorème, il doit en revanche pouvoir comprendre rigoureusement les nouvelles avancées dans le domaine afin de voir si elles sont applicables dans son cas à lui. Outre le bagage mathématique, théorique et technique, cela suppose une veille constante.
Les grands challenges de ce métier dans le secteur juridique ?
A : Optimiser constamment la fiabilité. Tous les algorithmes ont des niveaux de « précision », ce qui veut dire qu’ils peuvent se tromper. Or, dans le contexte juridique, on ne peut pas se permettre de donner une information erronée à l’utilisateur ou de lui faire manquer une information importante. C’est un véritable enjeu pour nous de livrer des outils ayant le plus haut niveau de fiabilité.
R : L’interaction homme-machine. Quand l’humain se trompe, il ne sait pas qu’il se trompe. Quand la machine se trompe, on a des indices qui nous le montrent. Et on peut en tirer parti ! On est ici dans une démarche transparente : rendre visible les imprécisions auprès de l’utilisateur, par exemple via des scores de confiance, pour fiabiliser encore plus le travail de l’automatisation. Ce qu’il faut bien comprendre, c’est que la machine vient en aide à l’analyse : en suggérant à l’utilisateur les informations clés qu’elle identifie dans ses contrats, elle le place en position de contrôle.
Une victoire pour vous c’est quand… ?
D’un point de vue projet : quand un client exprime son enthousiasme à la fin d’un onboarding, ce petit effet “wahou” quand il sent que la machine répond bien à son besoin. D’un point de vue recherche : lorsqu’on fait une découverte étonnante, qu’on teste de nouvelles techniques et qu’on voit qu’elles marchent bien sur nos cas d’usage. On sent alors qu’on a fait un pas de plus.
Un message aux juristes qui envisagent l’installation d’une solution d’IA au sein de leur Direction Juridique ?
A : Avant de mettre en place une “IA”, il faut se renseigner sur ses limites et se demander : “est-ce qu’elle peut vraiment me faire gagner du temps ?”. Installer une IA sans l’utiliser derrière, c’est dommage. Utiliser une IA, c’est déjà, en soi, participer activement à l’innovation dans le domaine juridique. Par ailleurs, il faut prendre le temps de repenser les process internes de telle sorte qu’ils intègrent la brique technologique dans le quotidien du juriste.
R : Avant de se lancer, il faut bien identifier les tâches qui sont systématiques (par exemple remplir un fichier excel avec les dates de prise d’effet) : c’est sur ce type de tâche que l’automatisation sera la plus utile. Si l’IA n’a pas vocation à comprendre finement une notion juridique, elle est en revanche capable de trouver instantanément les clauses précises dans lesquelles le juriste doit faire son analyse.
Envie d’en savoir plus sur l’IA dans la gestion et l’analyse de contrats ?
C’est par ici 👇
Je télécharge le livre blanc !
Allez voir l’interview de notre Head of Product juste ici : Interview de Silvana de Santis, Head of Product 💖