moteur de recherche

Séminaire Algo - Carmen Brando
Séminaire Algo - Carmen Brando
21-févr.-2017 14:30
Il y a: 122 days





Carmen Brando

Entités, ressources et connaissances : annotation sémantique et analyse des textes thématiques en français

Salle de séminaire (4B05R) - Bâtiment Copernic

Abstract: Cette présentation prend comme point de départ la notion d’entité : elle correspond à une unité de langage dans le texte portée d’un sens et constitue une information essentielle pour l’analyse textuelle. L’annotation sémantique permet ainsi le repérage de ces entités et représente un des meilleurs moyens de rendre un texte exploitable. Ceci représente un enjeu récurrent quand l’on souhaite étudier des questions de recherche en sciences humaines et sociales dans des corpus de domaines spécifiques comme des essais littéraires [1] et historiques ou bien des corpus de récits de vie de migrants et d’avis citoyens sur la perception de la ville [2]. 

Dans ce contexte, nous nous intéressons à des outils supervisés et symboliques pour l’identification et la résolution d’entités nommées ; ces outils sont habituellement couplés dans une chaîne de traitement afin de maximiser les performances (Brando et al 2016b ; Brando et al 2016c). Etant donné que les corpus comprennent divers registres, thématiques et types d’entités, ces performances peuvent vraisemblement être affectées. Il est donc essentiel d’évaluer ces outils et au même temps, de mesurer la pertinence des ressources linguistiques telles que des bases de connaissances (ex : DBpedia, BabelNet) et des corpus annotés utilisés pour entraîner des modèles dans un cadre d’apprentissage supervisé. Nos recherches se sont intéressées à ce sujet-là. A part d'être performant, les outils doivent être flexibles, réutilisables et interopérables. Ce dernier aspect est fortement motivé par l’apparition et la consolidation du web de données [3] et de sa version linguistique [4]. Nous présenterons ainsi un outil non-supervisé pour la résolution d’entités nommées dans le contexte des humanités numériques, que nous appelons REDEN [5] (Brando et al 2016a). Il est fondé sur la théorie de graphes et inspiré par les algorithmes en désambiguïsation lexicale, il s’appuie sur le modèle de graphes RDF ainsi que le web de données en tant que base de connaissances, parfois généraliste ou bien spécifique. De même, nous tirons profit de l'interopérabilité en rapatriant des nouvelles informations à partir de ce graphe géant de connaissances afin de produire automatiquement des supports visuels pour l’analyse de données [6] (Frontini et al 2016). De manière transversale, nous nous intéressons également à la sémantique distributionnelle pour caractériser un corpus vis-à-vis des thématiques saillantes, cela nous aidera à mieux cibler la pertinence entre outil et ses ressources et un corpus donné. Nous aborderons brièvement le sujet de l’analyse de la subjectivité en lien avec l’identification d’entités nommées dans un corpus de récits de vie dans le contexte du projet PEPS Paris-Est-CNRS Matriciel. Nous clôturerons enfin l’exposé en soulignant les orientations de notre projet de recherche.








<- retour: