La chaire “NoRDF”

La chaire

La chaire NoRDF est un projet scientifique à l'école d'ingénieurs Télécom Paris qui vise à modéliser et extraire des informations complexes à partir d'un texte en langage naturel. Plus précisément, nous voulons enrichir les bases de connaissances avec des événements, des causes, des conditions, des préséances, des histoires, des négations et des croyances. En particulier, nous étudierons l'expression du sentiment. Nous voulons extraire ce type d'informations à grande échelle à partir de sources structurées et non structurées, et nous voulons permettre aux machines de raisonner dessus. Le projet rassemble des recherches sur la représentation des connaissances, sur le raisonnement et sur l'extraction d'informations, et se veut utile pour des applications telles que la détection des “fake news”, la modélisation de controverses ou l'analyse de l'e-réputation d'une entreprise.

Le projet est financé par l'Agence Française de la Recherche ANR dans le cadre d'une Chaire ANR AI, avec un financement total de 1,3 M €, en collaboration avec 4 partenaires industriels: BPCE, Schlumberger, Converteo, et EDF. Le projet se déroule de 2020 à 2024.

Pour plus de détails, consultez notre publication scientifique (en anglais).

Motivation

Au cours de la dernière décennie, l'extraction d'informations a fait d'énormes progrès. Nous pouvons désormais extraire des faits de documents Web à grande échelle et des bases de connaissances (BdC) telles que KnowItAll, DBpedia, NELL, BabelNet, WikiData et notre propre YAGO contiennent plusieurs millions d'entités et des centaines de millions de faits. Et pourtant, toutes ces bases de connaissances se concentrent sur une fraction extrêmement réduite de connaissances: elles visent essentiellement les relations binaires entre un sujet et un objet. Par exemple, un KB peut connaître que <autisme, est un, trouble du développement> ou que <Mmr, est un vaccin contre, le rougeole>. Ce modèle de représentation des connaissances est appelé RDF. Le problème est que RDF ne peut capturer presque rien de l'article de Wikipedia sur les vaccins. Prenons par exemple ce texte sur le lien supposé entre les vaccins et l'autisme:
En février 1998, Andrew Wakefield a publié un article dans la revue médicale The Lancet, qui faisait état de douze enfants souffrant de troubles du développement. Les parents auraient lié le début des symptômes comportementaux à la vaccination. La controverse qui en a résulté est devenue la plus grande histoire scientifique de 2002. En conséquence, les taux de vaccination ont fortement chuté. En 2011, le BMJ a détaillé comment Wakefield avait truqué les données derrière l'article du Lancet de 1998.
De ce texte, les méthodes actuelles extrairaient simplement «Andrew Wakefield a publié un article» — et presque rien d'autre. Bien sûr, nous pourrions utiliser des méthodes non-symboliques (telles que des méthodes de distribution ou des approches d'apprentissage en profondeur) pour décider si l'article d'Andrew Wakefield est digne de confiance ou non. Mais supposons que nous voulions décider s'il existe un lien de causalité entre l'autisme et la vaccination; pourquoi nous constatons un taux de vaccination plus faible; ou avec quels arguments un autre article de blog soutient le mouvement anti-vaccin. Pour cela, nous avons besoin d'une compréhension plus détaillée du texte. La machine devrait comprendre: Les méthodes actuelles ne peuvent pas modéliser, extraire, et encore moins raisonner sur ce type d'information (c'est-à-dire appliquer des arguments logiques). L'objectif du projet NoRDF est d'aller au-delà des relations binaires entre entités et d'enrichir les KB avec des événements, des causes, des préséances, des histoires, des négations et des croyances. Nous voulons extraire ce type d'informations à grande échelle à partir de sources structurées et non structurées, et nous voulons permettre à la machine de raisonner dessus, c'est-à-dire d'appliquer des arguments logiques pour parvenir à une conclusion argumentée. Pour cela, nous souhaitons rassembler des recherches sur la représentation des connaissances, sur le raisonnement et sur l'extraction d'informations.

Applications

Notre projet veut contribuer à: Image ci-dessus prise d'Augur