moteur de recherche

Séminaire Algo - Elena-Mirabela Navlea-Laporte
Séminaire Algo - Elena-Mirabela Navlea-Laporte
28-févr.-2017 14:30
Il y a: 262 days





Elena-Mirabela Navlea-Laporte

Un système de traduction automatique français - roumain

Salle de séminaire (4B05R) - Bâtiment Copernic

Abstract: Nous présenterons des travaux de recherche doctorale et postdoctorale issus de notre projet de recherche portant sur la traduction automatique statistique (TAS) factorisée bidirectionnelle, pour le français et le roumain, une paire de langues riches morphologiquement, peu dotée en outils et en ressources langagières. Ce projet est motivé, d’une part, par le manque de systèmes de traduction automatique pour le français et le roumain et, d’autre part, par le nombre élevé d’erreurs fournies par les systèmes actuels.

Les systèmes de TAS (Koehn et al., 2003) fonctionnent par l’apprentissage automatique d’un modèle probabiliste de traduction à partir de gros corpus parallèles d’entraînement alignés lexicalement, mais aussi d’un modèle probabiliste de la langue d’arrivée, à partir d’un corpus monolingue. Ensuite, la traduction proprement dite d’une phrase source donnée en entrée est réalisée par un décodeur qui combine les données fournies par les modèles de traduction et de langue construits au préalable. De plus, les systèmes de TAS factorisés (Koehn et Hoang, 2007) permettent d’exploiter les différents niveaux de prétraitement des corpus (lemmatisation, étiquetage, etc.), afin d’améliorer les résultats des systèmes purement statistiques. En effet, dans l’optique de ces modèles, le mot représente un vecteur de facteurs linguistiques (formes de mots, lemmes, propriétés morphosyntaxiques ou syntaxiques, etc.) et différentes combinaisons de ces facteurs peuvent être prises en compte pendant le processus de traduction. Ainsi, le premier objectif de notre projet est la constitution de ressources linguistiques (corpus parallèles annotés et alignés, corpus de référence, dictionnaires, lexiques, etc.) pour un système de TAS factorisée français <-> roumain. Notre second objectif réside dans l’étude de l’influence des informations linguistiques exploitées, tant sur les résultats de l’alignement lexical, que sur la qualité des traductions obtenues. Nous présenterons les corpus utilisés, le système d’alignement lexical développé et son évaluation, ainsi que les expériences de TAS factorisée, effectuées dans les deux sens du processus de traduction. Les conclusions et les perspectives de ce travail seront également présentées. Le corpus d’entraînement (d’environ un million et demi de tokens par langue), extrait de la mémoire de traduction DGT-TM (Steinberger et al., 2012), appartient au domaine juridique et administratif.








<- retour: