Revenir au blog

Arnaud Ferré présente le logiciel de normalisation d'entité "C-Norm"

Arnaud Ferré présente le logiciel de normalisation d'entité "C-Norm"

© Didier Goupy

Catégories : logiciel interview Mots clés : mots clés non renseignés. Logiciels : C-Norm

Pour ce premier Interview sur notre Blog, nous avons le plaisir d’accueillir Arnaud Ferré. Arnaud est docteur et chercheur en intelligence artificielle, dans le domaine des Sciences du vivant. Il est chargé de recherche au sein de l'équipe Bibliome, du laboratoire Maiage, rattaché à l'INRAE (Institut national de recherche pour l’agriculture, l’alimentation et l’environnement) et à l'Université Paris-Saclay.

 

Peux-tu nous parler de C-Norm ?

 

C-Norm est un outil de normalisation d’entité : il prend en entrée des mots ou séquences de mots et va les associer à des étiquettes de référence. Par exemple, il pourrait associer l’étiquette “chien” à des entrées comme “labrador” ou “meilleur ami de l’homme”.

 

Dans quel contexte as-tu développé ce logiciel ?

 

Il y a une explosion des données textuelles, notamment depuis l’apparition d’internet. Un moteur de recherche peut rapporter tous les documents qu’un humain recherche. Cependant, celui-ci ne peut pas les analyser dans un temps raisonnable. C’est en particulier le cas avec la littérature scientifique, sur laquelle je travaille principalement. Mes travaux consistent à développer des logiciels d’IA plus performants, capables d’assister un humain dans ses analyses, notamment en extrayant et en structurant les informations contenues dans des grandes quantités de documents textuels

 

Quel est son apport pour la société civile ?

 

La normalisation est une des étapes-clés, permettant d’extraire des informations. Elle permet notamment d’interpréter plus finement les informations extraites. Intégré à une solution d’extraction complète, C-Norm pourrait contribuer à permettre à chacun d’améliorer son accès à l’information et à la connaissance partagées.

 

 

Quelle est sa valeur ajoutée pour l’industrie ?

 

Les données sont devenues une ressource parmi les plus convoitées par l’industrie. En effet, réussir à construire ou à compléter des bases de données de qualité, est devenu un enjeu primordial (ex : une base de données des molécules candidates pour soigner une pathologie). C-Norm peut alors permettre d’affiner les informations des bases de données produites. 

 

 

Quels sont les secteurs qui pourraient l’utiliser ?

 

Tous les secteurs qui ont besoin d’extraire automatiquement des informations de documents. Un des plus de C-Norm, est sa capacité à pouvoir tirer profit des connaissances décrites dans certains ensembles d’étiquettes de référence, que l’on appelle des ontologies. En définitive, toutes les organisations qui auraient à disposition des ontologies autour de leur domaine de prédilection (ex : SNOMED, Gene Ontology, …).

 

 

Quelles sont ses perspectives d'évolutions ?

 

C-Norm utilise des outils relativement récents, tels que les réseaux de neurones. Aussi, une perspective intéressante pourrait être de chercher des optimisations qui permettent de diminuer ses besoins et d’accélérer son temps de traitement.

 

 

Pourquoi souhaites tu partager ton logiciel ?

 

Je souhaite rendre accessible C-Norm au plus grand nombre de scientifiques et de novices. Ainsi, partager ce logiciel sur une plateforme tel que PostLab, a pour objectifs : de favoriser la reproductibilité scientifique et d'aider des non-experts à découvrir son potentiel et répondre à leurs besoins.

 

 

Y a t-il des logiciels similaires à C-Norm ?

 

Le premier logiciel de normalisation dans la lignée de C-Norm est D-Norm. Ce dernier, est plutôt spécialisé sur la normalisation des noms de maladies. En revanche, C-Norm est l'un des premiers à se revendiquer comme capable de s’adapter à différentes tâches de normalisation. D-Norm existe depuis 2013 et il est toujours utilisé.

 

 

Y a t-il des logiciels complémentaires à C-Norm ?

 

Pour effectuer une normalisation d’entité, il faut au préalable avoir identifié les entités textuelles qui sont d’intérêt, c’est-à-dire avoir identifié les limites de ces entités dans les textes, et savoir si ces entités sont d’intérêt pour la normalisation (ex : avoir sélectionné seulement les animaux). Pour effectuer ce traitement, il faut utiliser un logiciel de reconnaissance d’entités. La recherche est très active sur ce sujet, et il existe une multitude d'outils et de méthodes. 

 

 
 
Merci à Arnaud Ferré d’avoir répondu à nos questions et pour le temps consacré.