Translator et autres : traduisent « a la va comme j’te pousse » !

Au début du mois de décembre dernier, quiconque demandait à Google Traduction l’équivalent italien de l’expression « Cette fille est jolie » obtenait une proposition étrange : Questa ragazza è abbastanza, littéralement « Cette fille est assez ». La beauté s’était lost in translation — perdue en cours de traduction. Comment un des traducteurs automatiques les plus performants du monde, fort d’un capital linguistique unique constitué de milliards de phrases, peut-il commettre une erreur aussi grossière?

La réponse est simple : il passe par l’anglais. « Jolie » peut se traduire par pretty, qui signifie à la fois « joli » et « assez ». Le second sens correspond à l’italien abbastanza.

Ce principe connu, il devient aisé de produire des phrases insolites et souvent amusantes. « Je pense que vous avez un président magnifique » devient Penso che tu abbia una bella sedia, c’est-à-dire : « Je pense que tu as une jolie chaise » . (…)

Pour élaborer un traducteur automatique, il faut disposer de grands corpus de textes identiques traduits d’une langue à l’autre. Entreprise américaine, Google a logiquement construit son outil sur des paires textuelles utilisant presque toujours l’anglais comme langue pivot.

Pour aller du français vers l’italien, il faut ainsi, « par construction », passer par une traduction anglaise intermédiaire. Ce processus engendre un biais linguistique important. Le français et l’italien sont des langues relativement proches. En comparaison, l’anglais est une langue particulière, compacte, riche en formules idiomatiques. Une mauvaise compréhension du contexte ouvre la voie à de nombreuses erreurs. Projeter une expression vers l’espace anglophone puis la renvoyer vers une langue cible induit des innovations linguistiques involontaires.

(…) Dans ces conditions, comment s’étonner que les machines se trompent? Leurs erreurs présentent d’ailleurs un intérêt; elles nous font réfléchir aux spécificités de chaque langue. Et puis, à terme, le développement de corpus bilingues évitant l’entremise de l’anglais tout comme les corrections effectuées par les internautes eux-mêmes devraient améliorer les traductions. (…)

Ces programmes informatiques engendrent non seulement des innovations linguistiques dans le contexte de traductions robotisées, mais sont également utilisés pour rédiger automatiquement des articles de presse, corriger syntaxiquement et sémantiquement le contenu des pages Wikipédia, produire des messages publicitaires ciblés ou optimiser le contenu d’une page Web pour faciliter son indexation par les moteurs de recherche.

Dès lors, comment distinguer les ressources linguistiques primaires, produites par des humains sans médiation algorithmique (conversations écrites, contenus de livres numérisés, etc.), des ressources linguistiques secondaires, qui découlent de transformations algorithmiques de ressources primaires ? (…)

Dans bien des cas, nous cessons de saisir nos textes lettre par lettre ou mot à mot : nous nous contentons de choisir parmi plusieurs prolongations possibles proposées par des algorithmes. Cette forme d’écriture allie rapidité et efficacité, en particulier lorsqu’on utilise le clavier réduit d’un téléphone portable. Dans ce nouveau cadre, rédiger consiste juste à choisir agilement un chemin dans l’arborescence des expressions prédictibles. D’ici quelques années, il sera sans doute difficile de trouver une interface qui n’utilise pas cette technologie.

Comme les autres ressources secondaires, les textes produits algorithmiquement par des traducteurs automatiques ne sont pas nécessairement identifiés ou labellisés comme tels. Ils se présentent au contraire souvent comme des ressources primaires, naturelles, que des lecteurs peuvent éventuellement prendre pour modèle. (…)

La généralisation sur Internet de ressources « polluées » par les automates menace l’ensemble d’un édifice technologique qui privilégie la quantité massive de données sur le contrôle systématique de leur qualité. On trouve déjà de nombreux exemples d’expressions étranges sur le Web.

Sur la boutique en ligne où Apple vend ses logiciels (Apple Store), on lit par exemple ces commentaires à propos d’une application qui permet de taper des messages tout en marchant… « Intuitif à utiliser, des beaux résultats et à nouveau de bonne humeur Merci qui a fait la ! c’est vraiment cool et recommande ». Plus loin, un autre commentaire partage visiblement certaines bizarreries de langage avec le premier : « II m’aide introduire le texte horizontale et verticale, envoyer des messages SMS, envoyer d’e-mail, envoyer des messages sur Twitter et Facebook… assez amusant, je vous remercie ! »

Ces phrases qui incorporent les tournures bizarres des algorithmes peuvent dans un second temps servir de modèles à des services de médiation textuelle qui proposent par exemple d’auto-compléter l’expression que vous êtes en train de taper. (…)

Le pivot linguistique anglais participe ainsi potentiellement à un phénomène de créolisation : la formation d’une langue nouvelle fondée sur la transformation par l’usage d’autres langues plus anciennes, phénomène bien connu des linguistes.

Actuellement, les modifications introduites par la médiation algorithmique constituent une sorte de sabir, langue de contact, potentiellement éphémère, entre deux systèmes linguistiques. Mais, alors qu’une nouvelle génération est exposée à ces expressions transformées, les innovations risquent de se régulariser sous la forme d’une langue cohérente et autonome, un créole. Une évolution que pourrait accélérer 1a médiation des nouvelles interfaces de saisie, prothèses linguistiques intimes susceptibles d’influencer fortement les formes expressives futures. (…)

FRÉDÉRIC KAPLAN ET DANA KIANFAR, Respectivement directeur et doctorant du laboratoire Digital Humanities de l’Ecole polytechnique fédérale de Lausanne.

Je vous invite à lire l’article en entier dans le Monde diplomatique de Janvier Titre «  Il pleut des chats et des chiens » MC