Session 3 : Analyse de la Traduction Automatique
15h-15h35
François Yvon (LIMSI, CNRS) | Ouvrir la boite noire ou comment analyser les systèmes de traduction neuronaux
Les systèmes de traduction neuronaux se distinguent de la précédente génération de systèmes de traduction statistique de bien des manières : si la qualité d’ensemble est souvent jugée meilleure, leur fonctionnement en "boîte noire" interdit d’avoir accès aux mécanismes par lesquels les traductions sont produites, de comprendre les causes d’erreurs, voire de les corriger de manière systématique. Dans cet exposé, nous présentons et discutons l’état actuelle des efforts de la recherche visant à analyser ses systèmes, à expliquer leurs erreurs et à rendre leurs résultats plus interprétables.
15h35-16h10
Hanna Martikainen, Alexandra Mestivier (CLILLAC-ARP, Université de Paris) | Les outils de traduction nouvelle génération : quel effet sur la qualité des textes traduits ?
Arrivée sur le marché en fanfare il y a quelques années, la traduction automatique neuronale suscite de nombreuses interrogations parmi les acteurs du secteur de la traduction. Ayant précédemment exploré la perception de ces outils nouvelle génération chez les apprenants en traduction spécialisée (Martikainen & Mestivier 2019), nous nous intéresserons dans cette communication à la qualité des textes issus de cette interaction entre l’humain et la machine. A travers une étude comparative de textes annotés, nous chercherons à caractériser ce qui différencie les textes traduits automatiquement par un moteur neuronal et post-édités par des apprenants des textes traduits par le processus classique, en nous intéressant plus spécifiquement à l’apport des corpus comparables en langues de spécialité (Kübler et al. 2019).
16h10-16h45
Orphée De Clercq, Rudy Loock, Bert Cappelle, Gert De Sutter, Koen Plevoets (Ghent University & Université de Lille) | Uncovering Machine Translationese: an experiment on 4 MT systems for English-French translations
The aim of this presentation is to discuss the linguistic features of machine-translated texts in comparison with original texts in order to uncover what has been called “machine translationese” (e.g. Daems et al. 2017). Using a corpus-based statistical approach, namely, the Principal Component Analysis technique, 4 MT systems have been investigated for English to French translations of press texts: 1 Statistical MT (SMT) and 3 Neural MT (NMT) systems, namely DeepL, Google Translate, and the European Commission’s eTranslation MT tool, in both its SMT and NMT versions. In particular, to complement a previous study on language-specific features (e.g. derived adverbs, existential constructions, coordinator et, preposition avec, see Loock 2018), a series of language-independent linguistic features were extracted for each text, ranging from superficial text characteristics such as the average word and sentence length, to frequencies of closed-class lexical categories and measures of lexical diversity.The final aim is to uncover linguistic features in MT texts that clearly deviate from the expected norms in original French.