moteur de recherche

Séminaire Algo - Elvys Linhares Pontes
Séminaire Algo - Elvys Linhares Pontes
11-Feb-2019 14:00
Age: 71 days





Elvys Linhares Pontes

Résumé translingue de textes et ses sous-tâches

Salle de séminaire (4B05R) - Bâtiment Copernic

La popularisation des réseaux sociaux et des documents numériques a entraîné une augmentation rapide de l'information disponible sur Internet. Cependant, cette énorme quantité de données ne peut pas être traitée manuellement. Le Traitement Automatique du Langage Naturel (TALN) traite des interactions entre les ordinateurs et les langues humaines afin de traiter et d'analyser les données en langue naturelle. Les techniques du TALN incorporent une variété de méthodes, comprenant la linguistique, les statistiques ou l'apprentissage automatique dans le but d’extraire des entités, des relations ou comprendre un document. Parmi plusieurs applications TALN existantes, nous nous intéressons au résumé translingue de textes, autrement dit à la production de résumés dans une langue différente de celle des documents sources. Nous analysons également d'autres tâches du TALN (la représentation des mots, la similarité sémantique ou encore la compression de phrases et de groupes de phrases) pour générer des résumés translingues plus stables et informatifs. La plupart des applications du TALN, y compris le résumé de texte, reposent sur une mesure de similarité pour analyser et comparer le sens des mots, des multi-mots, des phrases et des textes. Une façon d'analyser les similarités consiste à générer une représentation des phrases qui tient compte de leur sens. Le sens des phrases est défini par plusieurs éléments, tels que le contexte des mots et des expressions, l'ordre des mots et les informations précédentes. Des mesures simples, comme la mesure cosinus et la distance euclidienne, fournissent une mesure de similarité entre deux phrases ; cependant, elles mettent de côté l'ordre des mots ou les multi-mots. Pour surmonter ces limites, nous proposons un modèle de réseau de neurones qui combine des réseaux de neurones récurrents et convolutifs pour estimer la similarité sémantique d'une paire de phrases dans le contexte local et général des mots. Sur une tâche supervisée, notre modèle prédit des scores de similarité plus précis que des baselines en tenant davantage compte de la signification locale et générale non seulement des mots, mais aussi des expressions multi-mots. Afin d'éliminer les redondances et les informations non pertinentes de phrases similaires, nous proposons une méthode de compression de multi-phrases qui les fusionne en une phrase courte et contenant les informations principales. Tout d'abord, nous utilisons des graphes de mots pour modéliser les groupes de phrases similaires. Ensuite, nous appliquons un modèle de programmation linéaire en nombres entiers qui guide la compression de ces groupes à partir d'une liste de mots-clés. Nous cherchons ainsi un chemin dans le graphe de mots qui a une bonne cohésion et qui contient le maximum de mots-clés. Grâce à une série d'expériences, nous montrons que notre approche surpasse les systèmes de l'état de l'art en générant des compressions plus informatives et plus correctes pour les langues française, portugaise et espagnole. Enfin, nous combinons la méthode précédente pour construire un système de résumé translingue de textes. Notre système de résumé translingue ({anglais, français, portugais, espagnol} vers {anglais, français}) examine l'information à la fois dans les langues source et cible, afin d’identifier les phrases les plus pertinentes. Inspirés par les méthodes de résumé de texte par compression en analyse monolingue, nous adaptons notre méthode de compression de multi-phrases pour ce problème afin de ne conserver que l'information principale. Notre système s'avère être performant pour compresser l'information redondante et pour préserver l'information pertinente, en améliorant les scores d'informativité sans perdre la qualité grammaticale. L'analyse expérimentale des résumés interlinguistiques de {anglais, français, portugais, espagnol} vers {anglais, français} indique que notre approche surpasse les systèmes de l'état de l'art pour toutes ces langues.








<- Back to: Accueil