{"id":23146,"date":"2022-07-06T16:31:23","date_gmt":"2022-07-06T14:31:23","guid":{"rendered":"https:\/\/about.fb.com\/fr\/?p=23146"},"modified":"2022-07-05T16:43:20","modified_gmt":"2022-07-05T14:43:20","slug":"200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite","status":"publish","type":"post","link":"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/","title":{"rendered":"200 langues pour un seul mod\u00e8le d\u2019IA : une perc\u00e9e dans la traduction automatique de qualit\u00e9"},"content":{"rendered":"<ul>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">Meta AI a mis au point un mod\u00e8le d\u2019IA unique, <\/span><a href=\"https:\/\/ai.facebook.com\/research\/no-language-left-behind\/\"><span style=\"font-weight: 400\">NLLB-200<\/span><\/a><span style=\"font-weight: 400\">, qui est le premier \u00e0 traduire dans 200 langues diff\u00e9rentes avec une qualit\u00e9 de pointe valid\u00e9e par des \u00e9valuations pouss\u00e9es pour chacune d\u2019entre elles.<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">Nous avons \u00e9galement cr\u00e9\u00e9 un nouvel ensemble de donn\u00e9es d\u2019\u00e9valuation, FLORES-200, et mesur\u00e9 les performances de NLLB-200 dans chaque langue pour confirmer que les traductions sont de qualit\u00e9. En moyenne, NLLB-200 a r\u00e9alis\u00e9 des scores 44 % sup\u00e9rieurs au pr\u00e9c\u00e9dent mod\u00e8le le plus performant.<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">Nous nous appuyons d\u00e9sormais sur des techniques de mod\u00e9lisation et sur les conclusions tir\u00e9es du projet pour am\u00e9liorer et \u00e9tendre les traductions sur Facebook, Instagram et Wikip\u00e9dia.<\/span><\/li>\n<li style=\"font-weight: 400\"><span style=\"font-weight: 400\">Nous mettons en libre acc\u00e8s les mod\u00e8les NLLB-200, l\u2019ensemble de donn\u00e9es FLORES-200, le code d\u2019apprentissage des mod\u00e8les et le code permettant de recr\u00e9er l\u2019ensemble de donn\u00e9es d\u2019apprentissage afin d\u2019aider d\u2019autres chercheurs \u00e0 am\u00e9liorer leurs outils de traduction et \u00e0 s\u2019appuyer sur nos travaux.<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 400\">La langue est notre culture, notre identit\u00e9 et notre lien avec le monde. Mais compte tenu de l\u2019absence d\u2019outils de traduction de qualit\u00e9 pour des centaines de langues, des milliards de personnes ne peuvent pas acc\u00e9der aux contenus num\u00e9riques ni participer pleinement aux conversations et aux communaut\u00e9s en ligne dans leur langue de pr\u00e9dilection ou maternelle. Cela est particuli\u00e8rement vrai pour les centaines de millions de locuteurs des diverses langues d\u2019Afrique et d\u2019Asie.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Pour aider tout un chacun \u00e0 mieux se connecter aujourd\u2019hui et \u00e0 prendre part au m\u00e9tavers de demain, les chercheurs de Meta AI ont cr\u00e9\u00e9 No Language Left Behind (NLLB), une <\/span><a href=\"https:\/\/ai.facebook.com\/blog\/teaching-ai-to-translate-100s-of-spoken-and-written-languages-in-real-time\/\"><span style=\"font-weight: 400\">initiative visant \u00e0 d\u00e9velopper des fonctionnalit\u00e9s de traduction automatique de haute qualit\u00e9 pour la plupart des langues du monde<\/span><\/a><span style=\"font-weight: 400\">. Nous annon\u00e7ons aujourd\u2019hui une avanc\u00e9e importante concernant NLLB : nous avons d\u00e9velopp\u00e9 un mod\u00e8le d\u2019IA unique appel\u00e9 <\/span><a href=\"https:\/\/ai.facebook.com\/research\/no-language-left-behind\/\"><span style=\"font-weight: 400\">NLLB-200<\/span><\/a><span style=\"font-weight: 400\">, qui traduit 200 langues diff\u00e9rentes avec des r\u00e9sultats exceptionnels. Nombre de ces langues, telles que le kamba et le lao, n\u2019\u00e9taient pas ou peu prises en charge, m\u00eame par les meilleurs outils de traduction existants aujourd\u2019hui. Moins de 25 langues africaines sont actuellement prises en charge par les outils de traduction les plus r\u00e9pandus, dont beaucoup sont de mauvaise qualit\u00e9. En comparaison, NLLB-200 prend en charge 55 langues africaines avec des r\u00e9sultats exceptionnels. Au total, ce mod\u00e8le unique peut fournir des traductions de qualit\u00e9 pour des langues parl\u00e9es par des milliards de locuteurs dans le monde. En moyenne, les <\/span><a href=\"https:\/\/l.facebook.com\/l.php?u=https%3A%2F%2Fen.wikipedia.org%2Fwiki%2FBLEU&amp;h=AT3lplfSIEs1FZ6MV3Rb60BrfPegN36pWw6ZQw7c3CM_Mu-D257r2bjDkwd6t5gCaq07szksh7-nQHf-m09VHrqxkqwdbv6I8o38eHKmvcB_ADI7-hve0GBpEg3EFvMim4GXpr4T\"><span style=\"font-weight: 400\">scores BLEU<\/span><\/a><span style=\"font-weight: 400\"> du mod\u00e8le NLLB-200 sont sup\u00e9rieurs de 44 % \u00e0 ceux du pr\u00e9c\u00e9dent mod\u00e8le le plus performant sur l\u2019ensemble des 10 000 sens de traduction des donn\u00e9es de r\u00e9f\u00e9rence FLORES-101. Pour certaines langues africaines et indiennes, cette diff\u00e9rence d\u00e9passe 70 % par rapport aux syst\u00e8mes de traduction r\u00e9cents.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Nous mettons d\u00e9sormais le mod\u00e8le NLLB-200 en libre acc\u00e8s et publions un ensemble d\u2019outils pour aider d\u2019autres chercheurs \u00e0 \u00e9tendre nos travaux \u00e0 de nouvelles langues et \u00e0 mettre au point des technologies plus inclusives. Meta AI verse \u00e9galement jusqu\u2019\u00e0 200 000 $ de subventions \u00e0 des organisations \u00e0 but non lucratif afin de les aider \u00e0 d\u00e9velopper des applications concr\u00e8tes du mod\u00e8le NLLB-200.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Les avanc\u00e9es scientifiques r\u00e9alis\u00e9es gr\u00e2ce \u00e0 l\u2019initiative NLLB permettront d\u2019am\u00e9liorer plus de 25 milliards de traductions effectu\u00e9es chaque jour sur le fil d\u2019actualit\u00e9 de Facebook, Instagram et nos autres plateformes. Imaginez-vous pouvoir consulter votre groupe Facebook favori, trouver une publication en igbo ou luganda et la comprendre dans votre propre langue d\u2019un simple clic. L\u2019am\u00e9lioration de la pr\u00e9cision des traductions dans plusieurs langues pourra \u00e9galement faciliter le rep\u00e9rage des contenus nuisibles et des fausses informations, afin de pr\u00e9server l\u2019int\u00e9grit\u00e9 des \u00e9lections et lutter contre les ph\u00e9nom\u00e8nes <\/span><a href=\"https:\/\/l.facebook.com\/l.php?u=https%3A%2F%2Fabout.fb.com%2Fnews%2F2021%2F12%2Fmetas-human-rights-work-philippines%2F&amp;h=AT2EXBjXw3q2VQuTyJmxH72W4I-_YfWUHq8RhWi6CnGrPogDO-E1CkKD-AMBOkR8TfGc6AwUL59MJtDfOql1cAb3qLh7XfVH9dDMwtfjaZuwNyMqCLmxuiTLF8Cw3EU_5szFMbYfsHGoPtHoRPwX-Q\"><span style=\"font-weight: 400\">d\u2019exploitation sexuelle et de traite d\u2019\u00eatres humains en ligne<\/span><\/a><span style=\"font-weight: 400\">. Les techniques de mod\u00e9lisation et les d\u00e9couvertes de notre recherche NLLB sont d\u00e9sormais utilis\u00e9es par les syst\u00e8mes de traduction des \u00e9diteurs de Wikip\u00e9dia.<\/span><\/p>\n<p><span style=\"font-weight: 400\">La traduction est l\u2019une des perspectives les plus int\u00e9ressantes de l\u2019IA, car elle a beaucoup d\u2019incidence sur le quotidien des internautes. L\u2019initiative NLLB ne vise pas seulement \u00e0 renforcer l\u2019accessibilit\u00e9 des contenus sur le web. Elle permet aux internautes d\u2019\u00e9changer et de partager plus facilement des informations entre plusieurs langues. Nous avons encore du chemin \u00e0 parcourir, mais ces r\u00e9cents progr\u00e8s nous remplissent d\u2019espoir et nous aident \u00e0 mieux accomplir la <\/span><a href=\"https:\/\/about.facebook.com\/company-info\/\"><span style=\"font-weight: 400\">mission de Meta<\/span><\/a><span style=\"font-weight: 400\">.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Vous trouverez ici une d\u00e9monstration du mod\u00e8le NLLB-200 pour constater sa capacit\u00e9 \u00e0 traduire des histoires du monde entier. Vous pourrez \u00e9galement lire nos travaux de recherche.<\/span><\/p>\n<h2><span style=\"font-weight: 400\">Proposer des outils de traduction \u00e0 des milliards de locuteurs suppl\u00e9mentaires<\/span><\/h2>\n<p><span style=\"font-weight: 400\">Nous avons travaill\u00e9 en partenariat avec la <\/span><a href=\"https:\/\/l.facebook.com\/l.php?u=https%3A%2F%2Fwikimediafoundation.org%2F&amp;h=AT322I6mgnDblJESRoVGaNfjtAs6pFMUm3siburNSJHZtMtgYngIx9D7DBIUMjuNAhEL2jAD_d2xlGEaX-ANSsgNiHvrhn1gVlDWwBv-JFNfw6hgoWdbq_rx_1TS2NM3F2F52jEF\"><span style=\"font-weight: 400\">fondation Wikim\u00e9dia<\/span><\/a><span style=\"font-weight: 400\">, une organisation \u00e0 but non lucratif qui h\u00e9berge Wikip\u00e9dia et d\u2019autres sites d\u2019acc\u00e8s gratuit au savoir, pour aider \u00e0 am\u00e9liorer les syst\u00e8mes de traduction de Wikip\u00e9dia. Wikip\u00e9dia poss\u00e8de des versions en plus de 300 langues, mais la plupart des versions sont loin d\u2019approcher les plus de 6 millions d\u2019articles du Wikip\u00e9dia anglais. Cet \u00e9cart est particuli\u00e8rement marqu\u00e9 pour les langues principalement parl\u00e9es en dehors de l\u2019Europe et de l\u2019Am\u00e9rique du Nord. Par exemple, il n\u2019existe qu\u2019environ 3 260 articles de Wikip\u00e9dia en lingala, une langue qui compte 45 millions de locuteurs dans la R\u00e9publique d\u00e9mocratique du Congo, la R\u00e9publique du Congo, la R\u00e9publique Centrafrique et le Soudan du Sud. \u00c0 titre de comparaison, il existe plus de 2,5 millions d\u2019articles en su\u00e9dois, alors que cette langue est parl\u00e9e par 10 millions de locuteurs en Su\u00e8de et en Finlande.<\/span><\/p>\n<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-large wp-image-23152\" src=\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/Image1.jpg?w=605&#038;resize=605%2C454\" alt=\"\" width=\"605\" height=\"454\" srcset=\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/Image1.jpg?w=605 605w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/Image1.jpg?w=533 533w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/Image1.jpg?w=300 300w\" sizes=\"auto, (max-width: 605px) 100vw, 605px\" \/><\/p>\n<p><span style=\"font-weight: 400\">Les \u00e9diteurs de Wikip\u00e9dia ont d\u00e9sormais acc\u00e8s \u00e0 la technologie \u00e0 l\u2019origine du mod\u00e8le NLLB-200 via l\u2019<\/span><a href=\"https:\/\/l.facebook.com\/l.php?u=https%3A%2F%2Fwww.mediawiki.org%2Fwiki%2FContent_translation&amp;h=AT28QRAK-Vbs5dcAhOV9SiCwDt9BAURCfPkAgKHkx2z5XPlwQt05zgXpLhzuHG09cnf81TeX-1MUcHeCjSZewZL0CXEW2013d_Tlm0gtz_ytzKDr20WqKy-E3_nPPQN43TM-fdxs\"><span style=\"font-weight: 400\">outil de traduction de contenu<\/span><\/a><span style=\"font-weight: 400\"> de la fondation Wikim\u00e9dia. Ils peuvent ainsi traduire des articles dans plus de 20 langues pour lesquelles peu de ressources existent (qui manquent d\u2019ensembles de donn\u00e9es exhaustifs pour entra\u00eener des syst\u00e8mes d\u2019IA), dont 10 qui n\u2019\u00e9taient pas encore prises en charge par les outils de traduction automatique de la plateforme.<\/span><\/p>\n<h1><span style=\"font-weight: 400\">R\u00e9ussir \u00e0 construire un seul mod\u00e8le pour des centaines de langues<\/span><\/h1>\n<p><span style=\"font-weight: 400\">Les syst\u00e8mes de traduction automatique, comme tous les mod\u00e8les d\u2019IA, sont entra\u00een\u00e9s sur des donn\u00e9es. Dans le cas des syst\u00e8mes de traduction textuelle, cela repr\u00e9sente g\u00e9n\u00e9ralement des millions de phrases soigneusement mises en correspondance dans plusieurs langues. Mais le volume disponible de phrases parall\u00e8les n\u2019est simplement pas le m\u00eame en anglais qu\u2019en peul. Les mod\u00e8les de traduction actuels essaient de combler cet \u00e9cart en extrayant des donn\u00e9es du web. Mais cela donne souvent des r\u00e9sultats de pi\u00e8tre qualit\u00e9, car le texte source n\u2019est pas le m\u00eame pour toutes les langues. De plus, le web contient un grand nombre de fautes et d\u2019incoh\u00e9rences orthographiques. Les accents et les autres signes diacritiques y sont souvent omis.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Un autre d\u00e9fi important \u00e0 relever consiste \u00e0 optimiser un seul mod\u00e8le de fa\u00e7on \u00e0 le faire fonctionner pour des centaines de langues sans perdre en performances ou en qualit\u00e9 de la traduction. Traditionnellement, le meilleur moyen d\u2019obtenir la plus haute qualit\u00e9 de traduction possible \u00e9tait de cr\u00e9er un mod\u00e8le distinct pour chaque combinaison de langues. Mais cette approche est peu \u00e9volutive : les performances et la qualit\u00e9 de la traduction se d\u00e9gradent lors de l\u2019ajout de nouvelles langues.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Les mod\u00e8les de traduction g\u00e9n\u00e8rent \u00e9galement des erreurs qui sont difficiles \u00e0 rep\u00e9rer. Ces syst\u00e8mes sont bas\u00e9s sur les m\u00eames r\u00e9seaux neuronaux que ceux utilis\u00e9s pour la g\u00e9n\u00e9ration de texte. Ils g\u00e9n\u00e8rent donc naturellement les m\u00eames types d\u2019erreurs : fausses affirmations, inexactitude, contenu dangereux, etc. En r\u00e8gle g\u00e9n\u00e9rale, certaines langues disposent simplement d\u2019un nombre plus r\u00e9duit d\u2019\u00e9l\u00e9ments de r\u00e9f\u00e9rence et d\u2019ensembles de donn\u00e9es, ce qui complique drastiquement les processus de test et d\u2019am\u00e9lioration des mod\u00e8les.<\/span><\/p>\n<h1><span style=\"font-weight: 400\">Innover dans les domaines de l\u2019architecture, de la collecte de donn\u00e9es, de l\u2019\u00e9tablissement de r\u00e9f\u00e9rences et autres<\/span><\/h1>\n<p><span style=\"font-weight: 400\">Au cours des derni\u00e8res ann\u00e9es, nous avons fait d\u2019importants progr\u00e8s pour franchir tous ces obstacles. En 2020, nous avons pr\u00e9sent\u00e9 <\/span><a href=\"https:\/\/ai.facebook.com\/blog\/introducing-many-to-many-multilingual-machine-translation\/\"><span style=\"font-weight: 400\">notre mod\u00e8le de traduction en 100 langues, le M2M-100<\/span><\/a><span style=\"font-weight: 400\">, qui s\u2019appuyait sur de nouvelles m\u00e9thodes d\u2019acquisition des donn\u00e9es d\u2019entra\u00eenement, de nouvelles architectures permettant d\u2019ajuster la taille du mod\u00e8le sans nuire aux performances, ainsi que de nouveaux moyens d\u2019\u00e9valuer et d\u2019am\u00e9liorer les r\u00e9sultats. Pour ajouter 100 langues suppl\u00e9mentaires, nous avons d\u00fb progresser sur ces trois derniers points.<\/span><\/p>\n<h3><span style=\"font-weight: 400\">\u00c9toffer les ressources d\u2019entra\u00eenement<\/span><\/h3>\n<p><span style=\"font-weight: 400\">Pour collecter des textes parall\u00e8les de grande qualit\u00e9 dans un plus grand nombre de langues, nous avons am\u00e9lior\u00e9 <\/span><a href=\"https:\/\/l.facebook.com\/l.php?u=https%3A%2F%2Fengineering.fb.com%2F2019%2F01%2F22%2Fai-research%2Flaser-multilingual-sentence-embeddings%2F&amp;h=AT33TBqt4d4PNQK-kMiPl6N88jaNp16BJIkmJDxmaOVzcvmzGPSQTC4BPqpF4R2pyRrv6yfmOhQdjcMYcs9GE3p33wPUzLavSWD846IMFjstEQ004UTsQsij71gK9GkugFDwMNo7Zud0hlSF6ZMLZQ\"><span style=\"font-weight: 400\">LASER<\/span><\/a><span style=\"font-weight: 400\">, notre bo\u00eete \u00e0 outils de transfert zero-shot pour le traitement naturel du langage. La nouvelle version LASER3, qui remplace les r\u00e9seaux LSTM (long short-term memory), utilise un mod\u00e8le Transformer auto-entra\u00een\u00e9 avec l\u2019objectif MLM (masked language modeling). Nous avons am\u00e9lior\u00e9 ses performances en recourant \u00e0 des proc\u00e9dures d\u2019entra\u00eenement professeur-\u00e9l\u00e8ve, ainsi qu\u2019en cr\u00e9ant des encodeurs propres \u00e0 chaque groupe de langues. Cela nous a permis d\u2019\u00e9largir la couverture linguistique du LASER3 et de produire d\u2019importants volumes de phrases parall\u00e8les, y compris pour les langues p\u00e2tissant d\u2019un manque de ressources. Nous mettons la m\u00e9thode d\u2019incorporation multilingue du LASER3 \u00e0 la libre disposition des autres chercheurs. Nous publions \u00e9galement des milliards de phrases parall\u00e8les dans plusieurs combinaisons de langues que nous avons extraites et nettoy\u00e9es \u00e0 l\u2019aide des techniques d\u00e9crites ici.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Comme nous avons \u00e9largi nos sources de donn\u00e9es d\u2019entra\u00eenement en plusieurs langues, nous devions imp\u00e9rativement nous assurer que les exemples resteraient de bonne qualit\u00e9. Nous avons enti\u00e8rement repens\u00e9 notre pipeline de nettoyage des donn\u00e9es pour pouvoir traiter 200 langues en ajoutant plusieurs \u00e9tapes de filtrage essentielles . Par exemple, nous commen\u00e7ons par utiliser nos mod\u00e8les LID-200 pour filtrer les donn\u00e9es et r\u00e9duire le bruit des corpus web avec un haut niveau de pr\u00e9cision. Nous avons \u00e9tabli des listes d\u2019expressions dites toxiques pour chacune des 200 langues et les avons utilis\u00e9es pour \u00e9valuer et filtrer les r\u00e9sultats potentiellement nuisibles. Ces \u00e9tapes nous ont permis de nous assurer que nous disposons d\u2019ensemble de donn\u00e9es plus propres et moins offensants avec des langues correctement identifi\u00e9es. Ce travail est important pour am\u00e9liorer la qualit\u00e9 de la traduction et r\u00e9duire le risque d\u2019expressions toxiques (introduction de contenu nuisible par le syst\u00e8me lors du processus de traduction).<\/span><\/p>\n<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-large wp-image-23150\" src=\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/MT-Timeline.jpg?w=576&#038;resize=576%2C1024\" alt=\"\" width=\"576\" height=\"1024\" srcset=\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/MT-Timeline.jpg?w=1080 1080w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/MT-Timeline.jpg?w=225 225w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/MT-Timeline.jpg?w=169 169w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/MT-Timeline.jpg?w=768 768w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/MT-Timeline.jpg?w=576 576w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/MT-Timeline.jpg?w=864 864w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/MT-Timeline.jpg?w=608 608w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/MT-Timeline.jpg?w=338 338w\" sizes=\"auto, (max-width: 576px) 100vw, 576px\" \/><\/p>\n<h3><span style=\"font-weight: 400\">Ajuster la taille du mod\u00e8le sans nuire aux performances<\/span><\/h3>\n<p><span style=\"font-weight: 400\">Les syst\u00e8mes de traduction multilingue pr\u00e9sentent deux principaux avantages. Ils permettent de partager des donn\u00e9es d\u2019entra\u00eenement entre des langues qui se ressemblent, comme l\u2019assamais et le bengali qui utilisent tous les deux l\u2019alphasyllabaire bengali. Ils aident ainsi \u00e0 am\u00e9liorer consid\u00e9rablement la qualit\u00e9 de la traduction pour les langues disposant d\u2019une faible quantit\u00e9 de ressources quand elles sont entra\u00een\u00e9es avec des langues plus document\u00e9es. Les chercheurs peuvent \u00e9galement reproduire, redimensionner et tester plus facilement un seul mod\u00e8le multilingue que des centaines ou des milliers de mod\u00e8les bilingues.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Toutefois, l\u2019\u00e9largissement d\u2019un mod\u00e8le de 100 \u00e0 200 langues pr\u00e9sente d\u2019autres d\u00e9fis ardus. Lors de l\u2019augmentation du nombre de paires de langues pour lesquelles nous disposons de peu de ressources dans les donn\u00e9es d\u2019entra\u00eenement, les mod\u00e8les multilingues tendent progressivement vers une situation de surajustement au fur et \u00e0 mesure de leur entra\u00eenement. Nous avons r\u00e9solu ces probl\u00e8mes en innovant sur trois fronts : la r\u00e9gularisation et l\u2019apprentissage progressif, l\u2019auto-apprentissage et la diversification de la <\/span><a href=\"https:\/\/ai.facebook.com\/blog\/recent-advances-in-low-resource-machine-translation\/\"><span style=\"font-weight: 400\">retraduction<\/span><\/a><span style=\"font-weight: 400\">.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Nous avons commenc\u00e9 par d\u00e9velopper des r\u00e9seaux de type Mixture of Experts avec une capacit\u00e9 partag\u00e9e et sp\u00e9cialis\u00e9e afin de rediriger automatiquement les langues avec peu de donn\u00e9es vers cette capacit\u00e9. Conjointement avec l\u2019utilisation de syst\u00e8mes de r\u00e9gularisation plus efficaces, cela permet d\u2019\u00e9viter le surajustement. Nous avons \u00e9galement adopt\u00e9 une approche d\u2019apprentissage progressif en deux \u00e9tapes. Tout d\u2019abord, nous avons entra\u00een\u00e9 les langues disposant de ressources abondantes pendant quelques it\u00e9rations avant d\u2019ajouter les paires de langues pour lesquelles nous disposions de peu de ressources afin de r\u00e9duire le probl\u00e8me de surajustement. Ensuite, pour faire face \u00e0 la faible quantit\u00e9 de donn\u00e9es bitextuelles parall\u00e8les des langues moins repr\u00e9sent\u00e9es, nous avons mis \u00e0 profit un mod\u00e8le d\u2019auto-apprentissage sur les donn\u00e9es monolingues de ces langues ainsi que des langues mieux repr\u00e9sent\u00e9es qui leur ressemblent afin d\u2019am\u00e9liorer les performances globales du mod\u00e8le.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Enfin, nous avons analys\u00e9 la meilleure fa\u00e7on de g\u00e9n\u00e9rer des donn\u00e9es de retraduction et avons d\u00e9couvert que le m\u00e9lange de donn\u00e9es retraduites \u00e0 l\u2019aide de mod\u00e8les de traduction statistique bilingue et de traduction neuronale multilingue permettait d\u2019am\u00e9liorer les performances de traduction des langues moins repr\u00e9sent\u00e9es gr\u00e2ce \u00e0 la plus grande diversit\u00e9 des donn\u00e9es synth\u00e9tiques g\u00e9n\u00e9r\u00e9es. Pour entra\u00eener le mod\u00e8le NLLB-200, qui comporte 54 milliards de param\u00e8tres, nous nous sommes servis de notre tout nouveau superordinateur d\u2019IA <\/span><a href=\"https:\/\/ai.facebook.com\/blog\/ai-rsc\/\"><span style=\"font-weight: 400\">Research SuperCluster (RSC)<\/span><\/a><span style=\"font-weight: 400\">, un des plus rapides au monde.<\/span><\/p>\n<h3><span style=\"font-weight: 400\">Concevoir des outils d\u2019\u00e9valuation et de r\u00e9duction des risques pour plus de 200 langues<\/span><\/h3>\n<p><span style=\"font-weight: 400\">Pour \u00e9valuer et am\u00e9liorer le mod\u00e8le NLLB-200, nous avons mis au point un ensemble de donn\u00e9es d\u2019\u00e9valuation plusieurs-\u00e0-plusieurs unique, baptis\u00e9 FLORES-200. Cet ensemble permet aux chercheurs d\u2019\u00e9valuer les performances du mod\u00e8le dans 40 000 sens de traduction diff\u00e9rents. Nous mettons en acc\u00e8s libre cet ensemble de donn\u00e9es pour aider d\u2019autres chercheurs \u00e0 tester rapidement et \u00e0 am\u00e9liorer leurs mod\u00e8les de traduction. L\u2019ensemble FLORES-200 permet d\u2019\u00e9valuer les syst\u00e8mes de traduction pour un grand nombre d\u2019applications, notamment des brochures sant\u00e9, des films, des livres et du contenu en ligne dans des pays ou des r\u00e9gions dont les langues sont repr\u00e9sent\u00e9es par un faible nombre de ressources.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Le passage \u00e0 200 langues n\u00e9cessitait de pr\u00e9venir les risques de g\u00e9n\u00e9ration de contenu toxique, qui peuvent \u00eatre difficiles \u00e0 g\u00e9rer dans un syst\u00e8me de traduction multilingue. Pour ce faire, nous avons \u00e9tabli une liste d\u2019expressions toxiques pour toutes les langues prises en charge afin de permettre la d\u00e9tection et le filtrage des injures et de tout autre contenu potentiellement offensant. Nous publions nos r\u00e9f\u00e9rences et nos listes d\u2019\u00e9valuation des expressions toxiques pour l\u2019ensemble des 200 langues afin de donner aux autres chercheurs un outil leur permettant de r\u00e9duire les risques de leurs mod\u00e8les.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Pour \u00eatre certains d\u2019\u0153uvrer de la mani\u00e8re la plus responsable possible, nous avons fait appel \u00e0 une \u00e9quipe interdisciplinaire de linguistes, de sociologues et d\u2019ethnologues pour chacune des langues concern\u00e9es.<\/span><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-large wp-image-23149\" src=\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/SOTA-Comparison.jpg?w=890&#038;resize=890%2C501\" alt=\"\" width=\"890\" height=\"501\" srcset=\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/SOTA-Comparison.jpg?w=1920 1920w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/SOTA-Comparison.jpg?w=600 600w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/SOTA-Comparison.jpg?w=300 300w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/SOTA-Comparison.jpg?w=768 768w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/SOTA-Comparison.jpg?w=1024 1024w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/SOTA-Comparison.jpg?w=1536 1536w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/SOTA-Comparison.jpg?w=800 800w\" sizes=\"auto, (max-width: 890px) 100vw, 890px\" \/><\/p>\n<p style=\"text-align: center\"><em><span style=\"font-weight: 400\">Le graphique ci-dessus indique le score BLEU moyen sur le corpus FLORES-101 de traductions de 100 langues \u00e0 partir de l\u2019anglais et vers celui-ci. \u00c0 gauche, M2M et Delta LM, deux mod\u00e8les de pointe publi\u00e9s qui prennent en charge 100 langues. \u00c0 droite, des mod\u00e8les qui prennent en charge 200 langues : un mod\u00e8le Transformer de r\u00e9f\u00e9rence avec 3,3 milliards de param\u00e8tres, un mod\u00e8le de r\u00e9f\u00e9rence avec auto-apprentissage, un mod\u00e8le de r\u00e9f\u00e9rence avec retraduction, et NLLB-200, un mod\u00e8le de type Mixture of Experts qui exploite l\u2019auto-apprentissage et la retraduction.<\/span><\/em><\/p>\n<h1><span style=\"font-weight: 400\">D\u00e9velopper la traduction et renforcer l\u2019inclusion<\/span><\/h1>\n<p><span style=\"font-weight: 400\">Les outils de traduction de haute qualit\u00e9 peuvent \u00eatre r\u00e9volutionnaires. Aujourd\u2019hui, la r\u00e9alit\u00e9 est que le web est domin\u00e9 par une poign\u00e9e de langues, notamment l\u2019anglais, le mandarin, l\u2019espagnol et l\u2019arabe. Les locuteurs natifs de ces langues peuvent avoir du mal \u00e0 se repr\u00e9senter l\u2019importance de pouvoir lire quelque chose dans leur langue natale. Nous pensons que l\u2019initiative NLLB aidera \u00e0 pr\u00e9server le message original de chaque langue plut\u00f4t que de risquer souvent de le perdre en faisant appel \u00e0 une langue interm\u00e9diaire.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Outre la traduction, elle permettra \u00e9galement de r\u00e9aliser des progr\u00e8s dans d\u2019autres domaines du traitement naturel des langues. Cela peut inclure le d\u00e9veloppement d\u2019assistants fonctionnant dans des langues tels que le javanais ou l\u2019ouzbek, ou encore la cr\u00e9ation de syst\u00e8mes permettant de sous-titrer pr\u00e9cis\u00e9ment des films de Bollywood en swahili ou oromo. Avec l\u2019\u00e9mergence du m\u00e9tavers, la possibilit\u00e9 de cr\u00e9er des technologies qui fonctionnent correctement dans des centaines ou m\u00eame des milliers de langues facilitera grandement l\u2019acc\u00e8s du plus grand nombre \u00e0 de nouvelles exp\u00e9riences immersives dans des mondes virtuels.<\/span><\/p>\n<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-large wp-image-23151\" src=\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/NLLB-2-use-cases.jpg?w=890&#038;resize=890%2C687\" alt=\"\" width=\"890\" height=\"687\" srcset=\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/NLLB-2-use-cases.jpg?w=1920 1920w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/NLLB-2-use-cases.jpg?w=518 518w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/NLLB-2-use-cases.jpg?w=300 300w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/NLLB-2-use-cases.jpg?w=768 768w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/NLLB-2-use-cases.jpg?w=1024 1024w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/NLLB-2-use-cases.jpg?w=1536 1536w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/NLLB-2-use-cases.jpg?w=1399 1399w, https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/NLLB-2-use-cases.jpg?w=777 777w\" sizes=\"auto, (max-width: 890px) 100vw, 890px\" \/><\/p>\n<p><span style=\"font-weight: 400\">Il y a seulement quelques ann\u00e9es, la traduction automatique de haute qualit\u00e9 ne fonctionnait que dans quelques langues. Gr\u00e2ce au mod\u00e8le NLLB-200, nous avons fait un pas de plus vers des syst\u00e8mes permettant \u00e0 tout le monde de communiquer avec tous les interlocuteurs de son choix. Nous sommes enthousiastes \u00e0 l\u2019id\u00e9e de tout ce que cela peut repr\u00e9senter aujourd\u2019hui et \u00e0 l\u2019avenir, et nous continuerons de repousser les limites de la traduction automatique.<\/span><\/p>\n<p><i><span style=\"font-weight: 400\">Ce travail a \u00e9t\u00e9 r\u00e9alis\u00e9 par une \u00e9quipe pluridisciplinaire de Meta AI, notamment : Bapi Akula, Pierre Andrews, Necip Fazil Ayan, Loic Barrault, Shruti Bhosale, Marta Ruiz Costa-jussa, James Cross, Onur \u00c7elebi, Sergey Edunov, Maha Elbayad, Angela Fan, Cynthia Gao, Gabriel Mejia Gonzalez, Vedanuj Goswami, Francisco Guzm\u00e1n, Prangthip Hansanti, Kennet Heafield, Kevin Heffernan, John Hoffman, Semarley Jarrett, Elahe Kalbassi, Philipp Koehn, Janice Lam, Daniel Licht, Jean Maillard, Alexandre Mourachko, Christophe Ropers, Kaushik Ram Sadagopan, Safiyyah Saleem, Holger Schwenk, Shannon Spruit, Anna Sun, Chau Tran, Skyler Wang, Guillaume Wenzek, Jeff Wang et Al Youngblood.<\/span><\/i><\/p>\n","protected":false},"excerpt":{"rendered":"Meta AI a mis au point un mod\u00e8le d\u2019IA unique, NLLB-200, qui est le premier \u00e0 traduire dans 200 langues diff\u00e9rentes avec une qualit\u00e9 de pointe valid\u00e9e par des \u00e9valuations pouss\u00e9es pour chacune d\u2019entre elles. Nous avons \u00e9galement cr\u00e9\u00e9 un nouvel ensemble de donn\u00e9es d\u2019\u00e9valuation, FLORES-200, et mesur\u00e9 les performances de NLLB-200 dans chaque langue pour confirmer que les traductions sont de qualit\u00e9. En moyenne, NLLB-200 a r\u00e9alis\u00e9 des scores 44 % sup\u00e9rieurs au pr\u00e9c\u00e9dent mod\u00e8le le plus performant. Nous nous appuyons d\u00e9sormais sur des techniques de mod\u00e9lisation et sur les conclusions tir\u00e9es du projet pour am\u00e9liorer et \u00e9tendre les traductions sur Facebook, Instagram et Wikip\u00e9dia. Nous mettons en libre acc\u00e8s les mod\u00e8les NLLB-200, l\u2019ensemble de donn\u00e9es FLORES-200, le code d\u2019apprentissage des mod\u00e8les et le code permettant de recr\u00e9er l\u2019ensemble de donn\u00e9es d\u2019apprentissage afin d\u2019aider d\u2019autres chercheurs \u00e0 am\u00e9liorer leurs outils de traduction et \u00e0 s\u2019appuyer sur nos travaux. La langue est notre culture, notre identit\u00e9 et notre lien avec le monde. Mais compte tenu de l\u2019absence d\u2019outils de traduction de qualit\u00e9 pour des centaines de langues, des milliards de personnes ne peuvent pas acc\u00e9der aux contenus num\u00e9riques ni participer pleinement aux conversations et aux communaut\u00e9s en ligne dans leur langue de pr\u00e9dilection ou maternelle. Cela est particuli\u00e8rement vrai pour les centaines de millions de locuteurs des diverses langues d\u2019Afrique et d\u2019Asie. Pour aider tout un chacun \u00e0 mieux se connecter aujourd\u2019hui et \u00e0 prendre part au m\u00e9tavers de demain, les chercheurs de Meta AI ont cr\u00e9\u00e9 No Language Left Behind (NLLB), une initiative visant \u00e0 d\u00e9velopper des fonctionnalit\u00e9s de traduction automatique de haute qualit\u00e9 pour la plupart des langues du monde. Nous annon\u00e7ons aujourd\u2019hui une avanc\u00e9e importante concernant NLLB : nous avons d\u00e9velopp\u00e9 un mod\u00e8le d\u2019IA unique appel\u00e9 NLLB-200, qui traduit 200 langues diff\u00e9rentes avec des r\u00e9sultats exceptionnels. Nombre de ces langues, telles que le kamba et le lao, n\u2019\u00e9taient pas ou peu prises en charge, m\u00eame par les meilleurs outils de traduction existants aujourd\u2019hui. Moins de 25 langues africaines sont actuellement prises en charge par les outils de traduction les plus r\u00e9pandus, dont beaucoup sont de mauvaise qualit\u00e9. En comparaison, NLLB-200 prend en charge 55 langues africaines avec des r\u00e9sultats exceptionnels. Au total, ce mod\u00e8le unique peut fournir des traductions de qualit\u00e9 pour des langues parl\u00e9es par des milliards de locuteurs dans le monde. En moyenne, les scores BLEU du mod\u00e8le NLLB-200 sont sup\u00e9rieurs de 44 % \u00e0 ceux du pr\u00e9c\u00e9dent mod\u00e8le le plus performant sur l\u2019ensemble des 10 000 sens de traduction des donn\u00e9es de r\u00e9f\u00e9rence FLORES-101. Pour certaines langues africaines et indiennes, cette diff\u00e9rence d\u00e9passe 70 % par rapport aux syst\u00e8mes de traduction r\u00e9cents. Nous mettons d\u00e9sormais le mod\u00e8le NLLB-200 en libre acc\u00e8s et publions un ensemble d\u2019outils pour aider d\u2019autres chercheurs \u00e0 \u00e9tendre nos travaux \u00e0 de nouvelles langues et \u00e0 mettre au point des technologies plus inclusives. Meta AI verse \u00e9galement jusqu\u2019\u00e0 200 000 $ de subventions \u00e0 des organisations \u00e0 but non lucratif afin de les aider \u00e0 d\u00e9velopper des applications concr\u00e8tes du mod\u00e8le NLLB-200. Les avanc\u00e9es scientifiques r\u00e9alis\u00e9es gr\u00e2ce \u00e0 l\u2019initiative NLLB permettront d\u2019am\u00e9liorer plus de 25 milliards de traductions effectu\u00e9es chaque jour sur le fil d\u2019actualit\u00e9 de Facebook, Instagram et nos autres plateformes. Imaginez-vous pouvoir consulter votre groupe Facebook favori, trouver une publication en igbo ou luganda et la comprendre dans votre propre langue d\u2019un simple clic. L\u2019am\u00e9lioration de la pr\u00e9cision des traductions dans plusieurs langues pourra \u00e9galement faciliter le rep\u00e9rage des contenus nuisibles et des fausses informations, afin de pr\u00e9server l\u2019int\u00e9grit\u00e9 des \u00e9lections et lutter contre les ph\u00e9nom\u00e8nes d\u2019exploitation sexuelle et de traite d\u2019\u00eatres humains en ligne. Les techniques de mod\u00e9lisation et les d\u00e9couvertes de notre recherche NLLB sont d\u00e9sormais utilis\u00e9es par les syst\u00e8mes de traduction des \u00e9diteurs de Wikip\u00e9dia. La traduction est l\u2019une des perspectives les plus int\u00e9ressantes de l\u2019IA, car elle a beaucoup d\u2019incidence sur le quotidien des internautes. L\u2019initiative NLLB ne vise pas seulement \u00e0 renforcer l\u2019accessibilit\u00e9 des contenus sur le web. Elle permet aux internautes d\u2019\u00e9changer et de partager plus facilement des informations entre plusieurs langues. Nous avons encore du chemin \u00e0 parcourir, mais ces r\u00e9cents progr\u00e8s nous remplissent d\u2019espoir et nous aident \u00e0 mieux accomplir la mission de Meta. Vous trouverez ici une d\u00e9monstration du mod\u00e8le NLLB-200 pour constater sa capacit\u00e9 \u00e0 traduire des histoires du monde entier. Vous pourrez \u00e9galement lire nos travaux de recherche. Proposer des outils de traduction \u00e0 des milliards de locuteurs suppl\u00e9mentaires Nous avons travaill\u00e9 en partenariat avec la fondation Wikim\u00e9dia, une organisation \u00e0 but non lucratif qui h\u00e9berge Wikip\u00e9dia et d\u2019autres sites d\u2019acc\u00e8s gratuit au savoir, pour aider \u00e0 am\u00e9liorer les syst\u00e8mes de traduction de Wikip\u00e9dia. Wikip\u00e9dia poss\u00e8de des versions en plus de 300 langues, mais la plupart des versions sont loin d\u2019approcher les plus de 6 millions d\u2019articles du Wikip\u00e9dia anglais. Cet \u00e9cart est particuli\u00e8rement marqu\u00e9 pour les langues principalement parl\u00e9es en dehors de l\u2019Europe et de l\u2019Am\u00e9rique du Nord. Par exemple, il n\u2019existe qu\u2019environ 3 260 articles de Wikip\u00e9dia en lingala, une langue qui compte 45 millions de locuteurs dans la R\u00e9publique d\u00e9mocratique du Congo, la R\u00e9publique du Congo, la R\u00e9publique Centrafrique et le Soudan du Sud. \u00c0 titre de comparaison, il existe plus de 2,5 millions d\u2019articles en su\u00e9dois, alors que cette langue est parl\u00e9e par 10 millions de locuteurs en Su\u00e8de et en Finlande. Les \u00e9diteurs de Wikip\u00e9dia ont d\u00e9sormais acc\u00e8s \u00e0 la technologie \u00e0 l\u2019origine du mod\u00e8le NLLB-200 via l\u2019outil de traduction de contenu de la fondation Wikim\u00e9dia. Ils peuvent ainsi traduire des articles dans plus de 20 langues pour lesquelles peu de ressources existent (qui manquent d\u2019ensembles de donn\u00e9es exhaustifs pour entra\u00eener des syst\u00e8mes d\u2019IA), dont 10 qui n\u2019\u00e9taient pas encore prises en charge par les outils de traduction automatique de la plateforme. R\u00e9ussir \u00e0 construire un seul mod\u00e8le pour des centaines de langues Les syst\u00e8mes de traduction automatique, comme tous les mod\u00e8les d\u2019IA, sont entra\u00een\u00e9s sur des donn\u00e9es. Dans le cas des syst\u00e8mes de traduction textuelle, cela repr\u00e9sente g\u00e9n\u00e9ralement des millions de phrases soigneusement mises en correspondance dans plusieurs langues. Mais le volume disponible de phrases parall\u00e8les n\u2019est simplement pas le m\u00eame en anglais qu\u2019en peul. Les mod\u00e8les de traduction actuels essaient de combler cet \u00e9cart en extrayant des donn\u00e9es du web. Mais cela donne souvent des r\u00e9sultats de pi\u00e8tre qualit\u00e9, car le texte source n\u2019est pas le m\u00eame pour toutes les langues. De plus, le web contient un grand nombre de fautes et d\u2019incoh\u00e9rences orthographiques. Les accents et les autres signes diacritiques y sont souvent omis. Un autre d\u00e9fi important \u00e0 relever consiste \u00e0 optimiser un seul mod\u00e8le de fa\u00e7on \u00e0 le faire fonctionner pour des centaines de langues sans perdre en performances ou en qualit\u00e9 de la traduction. Traditionnellement, le meilleur moyen d\u2019obtenir la plus haute qualit\u00e9 de traduction possible \u00e9tait de cr\u00e9er un mod\u00e8le distinct pour chaque combinaison de langues. Mais cette approche est peu \u00e9volutive : les performances et la qualit\u00e9 de la traduction se d\u00e9gradent lors de l\u2019ajout de nouvelles langues. Les mod\u00e8les de traduction g\u00e9n\u00e8rent \u00e9galement des erreurs qui sont difficiles \u00e0 rep\u00e9rer. Ces syst\u00e8mes sont bas\u00e9s sur les m\u00eames r\u00e9seaux neuronaux que ceux utilis\u00e9s pour la g\u00e9n\u00e9ration de texte. Ils g\u00e9n\u00e8rent donc naturellement les m\u00eames types d\u2019erreurs : fausses affirmations, inexactitude, contenu dangereux, etc. En r\u00e8gle g\u00e9n\u00e9rale, certaines langues disposent simplement d\u2019un nombre plus r\u00e9duit d\u2019\u00e9l\u00e9ments de r\u00e9f\u00e9rence et d\u2019ensembles de donn\u00e9es, ce qui complique drastiquement les processus de test et d\u2019am\u00e9lioration des mod\u00e8les. Innover dans les domaines de l\u2019architecture, de la collecte de donn\u00e9es, de l\u2019\u00e9tablissement de r\u00e9f\u00e9rences et autres Au cours des derni\u00e8res ann\u00e9es, nous avons fait d\u2019importants progr\u00e8s pour franchir tous ces obstacles. En 2020, nous avons pr\u00e9sent\u00e9 notre mod\u00e8le de traduction en 100 langues, le M2M-100, qui s\u2019appuyait sur de nouvelles m\u00e9thodes d\u2019acquisition des donn\u00e9es d\u2019entra\u00eenement, de nouvelles architectures permettant d\u2019ajuster la taille du mod\u00e8le sans nuire aux performances, ainsi que de nouveaux moyens d\u2019\u00e9valuer et d\u2019am\u00e9liorer les r\u00e9sultats. Pour ajouter 100 langues suppl\u00e9mentaires, nous avons d\u00fb progresser sur ces trois derniers points. \u00c9toffer les ressources d\u2019entra\u00eenement Pour collecter des textes parall\u00e8les de grande qualit\u00e9 dans un plus grand nombre de langues, nous avons am\u00e9lior\u00e9 LASER, notre bo\u00eete \u00e0 outils de transfert zero-shot pour le traitement naturel du langage. La nouvelle version LASER3, qui remplace les r\u00e9seaux LSTM (long short-term memory), utilise un mod\u00e8le Transformer auto-entra\u00een\u00e9 avec l\u2019objectif MLM (masked language modeling). Nous avons am\u00e9lior\u00e9 ses performances en recourant \u00e0 des proc\u00e9dures d\u2019entra\u00eenement professeur-\u00e9l\u00e8ve, ainsi qu\u2019en cr\u00e9ant des encodeurs propres \u00e0 chaque groupe de langues. Cela nous a permis d\u2019\u00e9largir la couverture linguistique du LASER3 et de produire d\u2019importants volumes de phrases parall\u00e8les, y compris pour les langues p\u00e2tissant d\u2019un manque de ressources. Nous mettons la m\u00e9thode d\u2019incorporation multilingue du LASER3 \u00e0 la libre disposition des autres chercheurs. Nous publions \u00e9galement des milliards de phrases parall\u00e8les dans plusieurs combinaisons de langues que nous avons extraites et nettoy\u00e9es \u00e0 l\u2019aide des techniques d\u00e9crites ici. Comme nous avons \u00e9largi nos sources de donn\u00e9es d\u2019entra\u00eenement en plusieurs langues, nous devions imp\u00e9rativement nous assurer que les exemples resteraient de bonne qualit\u00e9. Nous avons enti\u00e8rement repens\u00e9 notre pipeline de nettoyage des donn\u00e9es pour pouvoir traiter 200 langues en ajoutant plusieurs \u00e9tapes de filtrage essentielles . Par exemple, nous commen\u00e7ons par utiliser nos mod\u00e8les LID-200 pour filtrer les donn\u00e9es et r\u00e9duire le bruit des corpus web avec un haut niveau de pr\u00e9cision. Nous avons \u00e9tabli des listes d\u2019expressions dites toxiques pour chacune des 200 langues et les avons utilis\u00e9es pour \u00e9valuer et filtrer les r\u00e9sultats potentiellement nuisibles. Ces \u00e9tapes nous ont permis de nous assurer que nous disposons d\u2019ensemble de donn\u00e9es plus propres et moins offensants avec des langues correctement identifi\u00e9es. Ce travail est important pour am\u00e9liorer la qualit\u00e9 de la traduction et r\u00e9duire le risque d\u2019expressions toxiques (introduction de contenu nuisible par le syst\u00e8me lors du processus de traduction). Ajuster la taille du mod\u00e8le sans nuire aux performances Les syst\u00e8mes de traduction multilingue pr\u00e9sentent deux principaux avantages. Ils permettent de partager des donn\u00e9es d\u2019entra\u00eenement entre des langues qui se ressemblent, comme l\u2019assamais et le bengali qui utilisent tous les deux l\u2019alphasyllabaire bengali. Ils aident ainsi \u00e0 am\u00e9liorer consid\u00e9rablement la qualit\u00e9 de la traduction pour les langues disposant d\u2019une faible quantit\u00e9 de ressources quand elles sont entra\u00een\u00e9es avec des langues plus document\u00e9es. Les chercheurs peuvent \u00e9galement reproduire, redimensionner et tester plus facilement un seul mod\u00e8le multilingue que des centaines ou des milliers de mod\u00e8les bilingues. Toutefois, l\u2019\u00e9largissement d\u2019un mod\u00e8le de 100 \u00e0 200 langues pr\u00e9sente d\u2019autres d\u00e9fis ardus. Lors de l\u2019augmentation du nombre de paires de langues pour lesquelles nous disposons de peu de ressources dans les donn\u00e9es d\u2019entra\u00eenement, les mod\u00e8les multilingues tendent progressivement vers une situation de surajustement au fur et \u00e0 mesure de leur entra\u00eenement. Nous avons r\u00e9solu ces probl\u00e8mes en innovant sur trois fronts : la r\u00e9gularisation et l\u2019apprentissage progressif, l\u2019auto-apprentissage et la diversification de la retraduction. Nous avons commenc\u00e9 par d\u00e9velopper des r\u00e9seaux de type Mixture of Experts avec une capacit\u00e9 partag\u00e9e et sp\u00e9cialis\u00e9e afin de rediriger automatiquement les langues avec peu de donn\u00e9es vers cette capacit\u00e9. Conjointement avec l\u2019utilisation de syst\u00e8mes de r\u00e9gularisation plus efficaces, cela permet d\u2019\u00e9viter le surajustement. Nous avons \u00e9galement adopt\u00e9 une approche d\u2019apprentissage progressif en deux \u00e9tapes. Tout d\u2019abord, nous avons entra\u00een\u00e9 les langues disposant de ressources abondantes pendant quelques it\u00e9rations avant d\u2019ajouter les paires de langues pour lesquelles nous disposions de peu de ressources afin de r\u00e9duire le probl\u00e8me de surajustement. Ensuite, pour faire face \u00e0 la faible quantit\u00e9 de donn\u00e9es bitextuelles parall\u00e8les des langues moins repr\u00e9sent\u00e9es, nous avons mis \u00e0 profit un mod\u00e8le d\u2019auto-apprentissage sur les donn\u00e9es monolingues de ces langues ainsi que des langues mieux repr\u00e9sent\u00e9es qui leur ressemblent afin d\u2019am\u00e9liorer les performances globales du mod\u00e8le. Enfin, nous avons analys\u00e9 la meilleure fa\u00e7on de g\u00e9n\u00e9rer des donn\u00e9es de retraduction et avons d\u00e9couvert que le m\u00e9lange de donn\u00e9es retraduites \u00e0 l\u2019aide de mod\u00e8les de traduction statistique bilingue et de traduction neuronale multilingue permettait d\u2019am\u00e9liorer les performances de traduction des langues moins repr\u00e9sent\u00e9es gr\u00e2ce \u00e0 la plus grande diversit\u00e9 des donn\u00e9es synth\u00e9tiques g\u00e9n\u00e9r\u00e9es. Pour entra\u00eener le mod\u00e8le NLLB-200, qui comporte 54 milliards de param\u00e8tres, nous nous sommes servis de notre tout nouveau superordinateur d\u2019IA Research SuperCluster (RSC), un des plus rapides au monde. Concevoir des outils d\u2019\u00e9valuation et de r\u00e9duction des risques pour plus de 200 langues Pour \u00e9valuer et am\u00e9liorer le mod\u00e8le NLLB-200, nous avons mis au point un ensemble de donn\u00e9es d\u2019\u00e9valuation plusieurs-\u00e0-plusieurs unique, baptis\u00e9 FLORES-200. Cet ensemble permet aux chercheurs d\u2019\u00e9valuer les performances du mod\u00e8le dans 40 000 sens de traduction diff\u00e9rents. Nous mettons en acc\u00e8s libre cet ensemble de donn\u00e9es pour aider d\u2019autres chercheurs \u00e0 tester rapidement et \u00e0 am\u00e9liorer leurs mod\u00e8les de traduction. L\u2019ensemble FLORES-200 permet d\u2019\u00e9valuer les syst\u00e8mes de traduction pour un grand nombre d\u2019applications, notamment des brochures sant\u00e9, des films, des livres et du contenu en ligne dans des pays ou des r\u00e9gions dont les langues sont repr\u00e9sent\u00e9es par un faible nombre de ressources. Le passage \u00e0 200 langues n\u00e9cessitait de pr\u00e9venir les risques de g\u00e9n\u00e9ration de contenu toxique, qui peuvent \u00eatre difficiles \u00e0 g\u00e9rer dans un syst\u00e8me de traduction multilingue. Pour ce faire, nous avons \u00e9tabli une liste d\u2019expressions toxiques pour toutes les langues prises en charge afin de permettre la d\u00e9tection et le filtrage des injures et de tout autre contenu potentiellement offensant. Nous publions nos r\u00e9f\u00e9rences et nos listes d\u2019\u00e9valuation des expressions toxiques pour l\u2019ensemble des 200 langues afin de donner aux autres chercheurs un outil leur permettant de r\u00e9duire les risques de leurs mod\u00e8les. Pour \u00eatre certains d\u2019\u0153uvrer de la mani\u00e8re la plus responsable possible, nous avons fait appel \u00e0 une \u00e9quipe interdisciplinaire de linguistes, de sociologues et d\u2019ethnologues pour chacune des langues concern\u00e9es. Le graphique ci-dessus indique le score BLEU moyen sur le corpus FLORES-101 de traductions de 100 langues \u00e0 partir de l\u2019anglais et vers celui-ci. \u00c0 gauche, M2M et Delta LM, deux mod\u00e8les de pointe publi\u00e9s qui prennent en charge 100 langues. \u00c0 droite, des mod\u00e8les qui prennent en charge 200 langues : un mod\u00e8le Transformer de r\u00e9f\u00e9rence avec 3,3 milliards de param\u00e8tres, un mod\u00e8le de r\u00e9f\u00e9rence avec auto-apprentissage, un mod\u00e8le de r\u00e9f\u00e9rence avec retraduction, et NLLB-200, un mod\u00e8le de type Mixture of Experts qui exploite l\u2019auto-apprentissage et la retraduction. D\u00e9velopper la traduction et renforcer l\u2019inclusion Les outils de traduction de haute qualit\u00e9 peuvent \u00eatre r\u00e9volutionnaires. Aujourd\u2019hui, la r\u00e9alit\u00e9 est que le web est domin\u00e9 par une poign\u00e9e de langues, notamment l\u2019anglais, le mandarin, l\u2019espagnol et l\u2019arabe. Les locuteurs natifs de ces langues peuvent avoir du mal \u00e0 se repr\u00e9senter l\u2019importance de pouvoir lire quelque chose dans leur langue natale. Nous pensons que l\u2019initiative NLLB aidera \u00e0 pr\u00e9server le message original de chaque langue plut\u00f4t que de risquer souvent de le perdre en faisant appel \u00e0 une langue interm\u00e9diaire. Outre la traduction, elle permettra \u00e9galement de r\u00e9aliser des progr\u00e8s dans d\u2019autres domaines du traitement naturel des langues. Cela peut inclure le d\u00e9veloppement d\u2019assistants fonctionnant dans des langues tels que le javanais ou l\u2019ouzbek, ou encore la cr\u00e9ation de syst\u00e8mes permettant de sous-titrer pr\u00e9cis\u00e9ment des films de Bollywood en swahili ou oromo. Avec l\u2019\u00e9mergence du m\u00e9tavers, la possibilit\u00e9 de cr\u00e9er des technologies qui fonctionnent correctement dans des centaines ou m\u00eame des milliers de langues facilitera grandement l\u2019acc\u00e8s du plus grand nombre \u00e0 de nouvelles exp\u00e9riences immersives dans des mondes virtuels. Il y a seulement quelques ann\u00e9es, la traduction automatique de haute qualit\u00e9 ne fonctionnait que dans quelques langues. Gr\u00e2ce au mod\u00e8le NLLB-200, nous avons fait un pas de plus vers des syst\u00e8mes permettant \u00e0 tout le monde de communiquer avec tous les interlocuteurs de son choix. Nous sommes enthousiastes \u00e0 l\u2019id\u00e9e de tout ce que cela peut repr\u00e9senter aujourd\u2019hui et \u00e0 l\u2019avenir, et nous continuerons de repousser les limites de la traduction automatique. Ce travail a \u00e9t\u00e9 r\u00e9alis\u00e9 par une \u00e9quipe pluridisciplinaire de Meta AI, notamment : Bapi Akula, Pierre Andrews, Necip Fazil Ayan, Loic Barrault, Shruti Bhosale, Marta Ruiz Costa-jussa, James Cross, Onur \u00c7elebi, Sergey Edunov, Maha Elbayad, Angela Fan, Cynthia Gao, Gabriel Mejia Gonzalez, Vedanuj Goswami, Francisco Guzm\u00e1n, Prangthip Hansanti, Kennet Heafield, Kevin Heffernan, John Hoffman, Semarley Jarrett, Elahe Kalbassi, Philipp Koehn, Janice Lam, Daniel Licht, Jean Maillard, Alexandre Mourachko, Christophe Ropers, Kaushik Ram Sadagopan, Safiyyah Saleem, Holger Schwenk, Shannon Spruit, Anna Sun, Chau Tran, Skyler Wang, Guillaume Wenzek, Jeff Wang et Al Youngblood.","protected":false},"author":164097090,"featured_media":23147,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[243897990,243897985],"tags":[38631,243898261,243898122,243898262,243898260,243898121,243898216],"class_list":["post-23146","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-actualites","category-meta","tag-fair","tag-flores","tag-ia","tag-langues","tag-nllb","tag-recherche","tag-traduction"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.2 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>200 langues pour un seul mod\u00e8le d\u2019IA : une perc\u00e9e dans la traduction automatique de qualit\u00e9 | \u00c0 propos de Meta<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/\" \/>\n<meta property=\"og:locale\" content=\"fr_FR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"200 langues pour un seul mod\u00e8le d\u2019IA : une perc\u00e9e dans la traduction automatique de qualit\u00e9 | \u00c0 propos de Meta\" \/>\n<meta property=\"og:description\" content=\"Meta AI a mis au point un mod\u00e8le d\u2019IA unique, NLLB-200, qui est le premier \u00e0 traduire dans 200 langues diff\u00e9rentes avec une qualit\u00e9 de pointe valid\u00e9e par des \u00e9valuations pouss\u00e9es pour chacune d\u2019entre elles. Nous avons \u00e9galement cr\u00e9\u00e9 un nouvel ensemble de donn\u00e9es d\u2019\u00e9valuation, FLORES-200, et mesur\u00e9 les performances de NLLB-200 dans chaque langue pour confirmer que les traductions sont de qualit\u00e9. En moyenne, NLLB-200 a r\u00e9alis\u00e9 des scores 44 % sup\u00e9rieurs au pr\u00e9c\u00e9dent mod\u00e8le le plus performant. Nous nous appuyons d\u00e9sormais sur des techniques de mod\u00e9lisation et sur les conclusions tir\u00e9es du projet pour am\u00e9liorer et \u00e9tendre les traductions sur Facebook, Instagram et Wikip\u00e9dia. Nous mettons en libre acc\u00e8s les mod\u00e8les NLLB-200, l\u2019ensemble de donn\u00e9es FLORES-200, le code d\u2019apprentissage des mod\u00e8les et le code permettant de recr\u00e9er l\u2019ensemble de donn\u00e9es d\u2019apprentissage afin d\u2019aider d\u2019autres chercheurs \u00e0 am\u00e9liorer leurs outils de traduction et \u00e0 s\u2019appuyer sur nos travaux. La langue est notre culture, notre identit\u00e9 et notre lien avec le monde. Mais compte tenu de l\u2019absence d\u2019outils de traduction de qualit\u00e9 pour des centaines de langues, des milliards de personnes ne peuvent pas acc\u00e9der aux contenus num\u00e9riques ni participer pleinement aux conversations et aux communaut\u00e9s en ligne dans leur langue de pr\u00e9dilection ou maternelle. Cela est particuli\u00e8rement vrai pour les centaines de millions de locuteurs des diverses langues d\u2019Afrique et d\u2019Asie. Pour aider tout un chacun \u00e0 mieux se connecter aujourd\u2019hui et \u00e0 prendre part au m\u00e9tavers de demain, les chercheurs de Meta AI ont cr\u00e9\u00e9 No Language Left Behind (NLLB), une initiative visant \u00e0 d\u00e9velopper des fonctionnalit\u00e9s de traduction automatique de haute qualit\u00e9 pour la plupart des langues du monde. Nous annon\u00e7ons aujourd\u2019hui une avanc\u00e9e importante concernant NLLB : nous avons d\u00e9velopp\u00e9 un mod\u00e8le d\u2019IA unique appel\u00e9 NLLB-200, qui traduit 200 langues diff\u00e9rentes avec des r\u00e9sultats exceptionnels. Nombre de ces langues, telles que le kamba et le lao, n\u2019\u00e9taient pas ou peu prises en charge, m\u00eame par les meilleurs outils de traduction existants aujourd\u2019hui. Moins de 25 langues africaines sont actuellement prises en charge par les outils de traduction les plus r\u00e9pandus, dont beaucoup sont de mauvaise qualit\u00e9. En comparaison, NLLB-200 prend en charge 55 langues africaines avec des r\u00e9sultats exceptionnels. Au total, ce mod\u00e8le unique peut fournir des traductions de qualit\u00e9 pour des langues parl\u00e9es par des milliards de locuteurs dans le monde. En moyenne, les scores BLEU du mod\u00e8le NLLB-200 sont sup\u00e9rieurs de 44 % \u00e0 ceux du pr\u00e9c\u00e9dent mod\u00e8le le plus performant sur l\u2019ensemble des 10 000 sens de traduction des donn\u00e9es de r\u00e9f\u00e9rence FLORES-101. Pour certaines langues africaines et indiennes, cette diff\u00e9rence d\u00e9passe 70 % par rapport aux syst\u00e8mes de traduction r\u00e9cents. Nous mettons d\u00e9sormais le mod\u00e8le NLLB-200 en libre acc\u00e8s et publions un ensemble d\u2019outils pour aider d\u2019autres chercheurs \u00e0 \u00e9tendre nos travaux \u00e0 de nouvelles langues et \u00e0 mettre au point des technologies plus inclusives. Meta AI verse \u00e9galement jusqu\u2019\u00e0 200 000 $ de subventions \u00e0 des organisations \u00e0 but non lucratif afin de les aider \u00e0 d\u00e9velopper des applications concr\u00e8tes du mod\u00e8le NLLB-200. Les avanc\u00e9es scientifiques r\u00e9alis\u00e9es gr\u00e2ce \u00e0 l\u2019initiative NLLB permettront d\u2019am\u00e9liorer plus de 25 milliards de traductions effectu\u00e9es chaque jour sur le fil d\u2019actualit\u00e9 de Facebook, Instagram et nos autres plateformes. Imaginez-vous pouvoir consulter votre groupe Facebook favori, trouver une publication en igbo ou luganda et la comprendre dans votre propre langue d\u2019un simple clic. L\u2019am\u00e9lioration de la pr\u00e9cision des traductions dans plusieurs langues pourra \u00e9galement faciliter le rep\u00e9rage des contenus nuisibles et des fausses informations, afin de pr\u00e9server l\u2019int\u00e9grit\u00e9 des \u00e9lections et lutter contre les ph\u00e9nom\u00e8nes d\u2019exploitation sexuelle et de traite d\u2019\u00eatres humains en ligne. Les techniques de mod\u00e9lisation et les d\u00e9couvertes de notre recherche NLLB sont d\u00e9sormais utilis\u00e9es par les syst\u00e8mes de traduction des \u00e9diteurs de Wikip\u00e9dia. La traduction est l\u2019une des perspectives les plus int\u00e9ressantes de l\u2019IA, car elle a beaucoup d\u2019incidence sur le quotidien des internautes. L\u2019initiative NLLB ne vise pas seulement \u00e0 renforcer l\u2019accessibilit\u00e9 des contenus sur le web. Elle permet aux internautes d\u2019\u00e9changer et de partager plus facilement des informations entre plusieurs langues. Nous avons encore du chemin \u00e0 parcourir, mais ces r\u00e9cents progr\u00e8s nous remplissent d\u2019espoir et nous aident \u00e0 mieux accomplir la mission de Meta. Vous trouverez ici une d\u00e9monstration du mod\u00e8le NLLB-200 pour constater sa capacit\u00e9 \u00e0 traduire des histoires du monde entier. Vous pourrez \u00e9galement lire nos travaux de recherche. Proposer des outils de traduction \u00e0 des milliards de locuteurs suppl\u00e9mentaires Nous avons travaill\u00e9 en partenariat avec la fondation Wikim\u00e9dia, une organisation \u00e0 but non lucratif qui h\u00e9berge Wikip\u00e9dia et d\u2019autres sites d\u2019acc\u00e8s gratuit au savoir, pour aider \u00e0 am\u00e9liorer les syst\u00e8mes de traduction de Wikip\u00e9dia. Wikip\u00e9dia poss\u00e8de des versions en plus de 300 langues, mais la plupart des versions sont loin d\u2019approcher les plus de 6 millions d\u2019articles du Wikip\u00e9dia anglais. Cet \u00e9cart est particuli\u00e8rement marqu\u00e9 pour les langues principalement parl\u00e9es en dehors de l\u2019Europe et de l\u2019Am\u00e9rique du Nord. Par exemple, il n\u2019existe qu\u2019environ 3 260 articles de Wikip\u00e9dia en lingala, une langue qui compte 45 millions de locuteurs dans la R\u00e9publique d\u00e9mocratique du Congo, la R\u00e9publique du Congo, la R\u00e9publique Centrafrique et le Soudan du Sud. \u00c0 titre de comparaison, il existe plus de 2,5 millions d\u2019articles en su\u00e9dois, alors que cette langue est parl\u00e9e par 10 millions de locuteurs en Su\u00e8de et en Finlande. Les \u00e9diteurs de Wikip\u00e9dia ont d\u00e9sormais acc\u00e8s \u00e0 la technologie \u00e0 l\u2019origine du mod\u00e8le NLLB-200 via l\u2019outil de traduction de contenu de la fondation Wikim\u00e9dia. Ils peuvent ainsi traduire des articles dans plus de 20 langues pour lesquelles peu de ressources existent (qui manquent d\u2019ensembles de donn\u00e9es exhaustifs pour entra\u00eener des syst\u00e8mes d\u2019IA), dont 10 qui n\u2019\u00e9taient pas encore prises en charge par les outils de traduction automatique de la plateforme. R\u00e9ussir \u00e0 construire un seul mod\u00e8le pour des centaines de langues Les syst\u00e8mes de traduction automatique, comme tous les mod\u00e8les d\u2019IA, sont entra\u00een\u00e9s sur des donn\u00e9es. Dans le cas des syst\u00e8mes de traduction textuelle, cela repr\u00e9sente g\u00e9n\u00e9ralement des millions de phrases soigneusement mises en correspondance dans plusieurs langues. Mais le volume disponible de phrases parall\u00e8les n\u2019est simplement pas le m\u00eame en anglais qu\u2019en peul. Les mod\u00e8les de traduction actuels essaient de combler cet \u00e9cart en extrayant des donn\u00e9es du web. Mais cela donne souvent des r\u00e9sultats de pi\u00e8tre qualit\u00e9, car le texte source n\u2019est pas le m\u00eame pour toutes les langues. De plus, le web contient un grand nombre de fautes et d\u2019incoh\u00e9rences orthographiques. Les accents et les autres signes diacritiques y sont souvent omis. Un autre d\u00e9fi important \u00e0 relever consiste \u00e0 optimiser un seul mod\u00e8le de fa\u00e7on \u00e0 le faire fonctionner pour des centaines de langues sans perdre en performances ou en qualit\u00e9 de la traduction. Traditionnellement, le meilleur moyen d\u2019obtenir la plus haute qualit\u00e9 de traduction possible \u00e9tait de cr\u00e9er un mod\u00e8le distinct pour chaque combinaison de langues. Mais cette approche est peu \u00e9volutive : les performances et la qualit\u00e9 de la traduction se d\u00e9gradent lors de l\u2019ajout de nouvelles langues. Les mod\u00e8les de traduction g\u00e9n\u00e8rent \u00e9galement des erreurs qui sont difficiles \u00e0 rep\u00e9rer. Ces syst\u00e8mes sont bas\u00e9s sur les m\u00eames r\u00e9seaux neuronaux que ceux utilis\u00e9s pour la g\u00e9n\u00e9ration de texte. Ils g\u00e9n\u00e8rent donc naturellement les m\u00eames types d\u2019erreurs : fausses affirmations, inexactitude, contenu dangereux, etc. En r\u00e8gle g\u00e9n\u00e9rale, certaines langues disposent simplement d\u2019un nombre plus r\u00e9duit d\u2019\u00e9l\u00e9ments de r\u00e9f\u00e9rence et d\u2019ensembles de donn\u00e9es, ce qui complique drastiquement les processus de test et d\u2019am\u00e9lioration des mod\u00e8les. Innover dans les domaines de l\u2019architecture, de la collecte de donn\u00e9es, de l\u2019\u00e9tablissement de r\u00e9f\u00e9rences et autres Au cours des derni\u00e8res ann\u00e9es, nous avons fait d\u2019importants progr\u00e8s pour franchir tous ces obstacles. En 2020, nous avons pr\u00e9sent\u00e9 notre mod\u00e8le de traduction en 100 langues, le M2M-100, qui s\u2019appuyait sur de nouvelles m\u00e9thodes d\u2019acquisition des donn\u00e9es d\u2019entra\u00eenement, de nouvelles architectures permettant d\u2019ajuster la taille du mod\u00e8le sans nuire aux performances, ainsi que de nouveaux moyens d\u2019\u00e9valuer et d\u2019am\u00e9liorer les r\u00e9sultats. Pour ajouter 100 langues suppl\u00e9mentaires, nous avons d\u00fb progresser sur ces trois derniers points. \u00c9toffer les ressources d\u2019entra\u00eenement Pour collecter des textes parall\u00e8les de grande qualit\u00e9 dans un plus grand nombre de langues, nous avons am\u00e9lior\u00e9 LASER, notre bo\u00eete \u00e0 outils de transfert zero-shot pour le traitement naturel du langage. La nouvelle version LASER3, qui remplace les r\u00e9seaux LSTM (long short-term memory), utilise un mod\u00e8le Transformer auto-entra\u00een\u00e9 avec l\u2019objectif MLM (masked language modeling). Nous avons am\u00e9lior\u00e9 ses performances en recourant \u00e0 des proc\u00e9dures d\u2019entra\u00eenement professeur-\u00e9l\u00e8ve, ainsi qu\u2019en cr\u00e9ant des encodeurs propres \u00e0 chaque groupe de langues. Cela nous a permis d\u2019\u00e9largir la couverture linguistique du LASER3 et de produire d\u2019importants volumes de phrases parall\u00e8les, y compris pour les langues p\u00e2tissant d\u2019un manque de ressources. Nous mettons la m\u00e9thode d\u2019incorporation multilingue du LASER3 \u00e0 la libre disposition des autres chercheurs. Nous publions \u00e9galement des milliards de phrases parall\u00e8les dans plusieurs combinaisons de langues que nous avons extraites et nettoy\u00e9es \u00e0 l\u2019aide des techniques d\u00e9crites ici. Comme nous avons \u00e9largi nos sources de donn\u00e9es d\u2019entra\u00eenement en plusieurs langues, nous devions imp\u00e9rativement nous assurer que les exemples resteraient de bonne qualit\u00e9. Nous avons enti\u00e8rement repens\u00e9 notre pipeline de nettoyage des donn\u00e9es pour pouvoir traiter 200 langues en ajoutant plusieurs \u00e9tapes de filtrage essentielles . Par exemple, nous commen\u00e7ons par utiliser nos mod\u00e8les LID-200 pour filtrer les donn\u00e9es et r\u00e9duire le bruit des corpus web avec un haut niveau de pr\u00e9cision. Nous avons \u00e9tabli des listes d\u2019expressions dites toxiques pour chacune des 200 langues et les avons utilis\u00e9es pour \u00e9valuer et filtrer les r\u00e9sultats potentiellement nuisibles. Ces \u00e9tapes nous ont permis de nous assurer que nous disposons d\u2019ensemble de donn\u00e9es plus propres et moins offensants avec des langues correctement identifi\u00e9es. Ce travail est important pour am\u00e9liorer la qualit\u00e9 de la traduction et r\u00e9duire le risque d\u2019expressions toxiques (introduction de contenu nuisible par le syst\u00e8me lors du processus de traduction). Ajuster la taille du mod\u00e8le sans nuire aux performances Les syst\u00e8mes de traduction multilingue pr\u00e9sentent deux principaux avantages. Ils permettent de partager des donn\u00e9es d\u2019entra\u00eenement entre des langues qui se ressemblent, comme l\u2019assamais et le bengali qui utilisent tous les deux l\u2019alphasyllabaire bengali. Ils aident ainsi \u00e0 am\u00e9liorer consid\u00e9rablement la qualit\u00e9 de la traduction pour les langues disposant d\u2019une faible quantit\u00e9 de ressources quand elles sont entra\u00een\u00e9es avec des langues plus document\u00e9es. Les chercheurs peuvent \u00e9galement reproduire, redimensionner et tester plus facilement un seul mod\u00e8le multilingue que des centaines ou des milliers de mod\u00e8les bilingues. Toutefois, l\u2019\u00e9largissement d\u2019un mod\u00e8le de 100 \u00e0 200 langues pr\u00e9sente d\u2019autres d\u00e9fis ardus. Lors de l\u2019augmentation du nombre de paires de langues pour lesquelles nous disposons de peu de ressources dans les donn\u00e9es d\u2019entra\u00eenement, les mod\u00e8les multilingues tendent progressivement vers une situation de surajustement au fur et \u00e0 mesure de leur entra\u00eenement. Nous avons r\u00e9solu ces probl\u00e8mes en innovant sur trois fronts : la r\u00e9gularisation et l\u2019apprentissage progressif, l\u2019auto-apprentissage et la diversification de la retraduction. Nous avons commenc\u00e9 par d\u00e9velopper des r\u00e9seaux de type Mixture of Experts avec une capacit\u00e9 partag\u00e9e et sp\u00e9cialis\u00e9e afin de rediriger automatiquement les langues avec peu de donn\u00e9es vers cette capacit\u00e9. Conjointement avec l\u2019utilisation de syst\u00e8mes de r\u00e9gularisation plus efficaces, cela permet d\u2019\u00e9viter le surajustement. Nous avons \u00e9galement adopt\u00e9 une approche d\u2019apprentissage progressif en deux \u00e9tapes. Tout d\u2019abord, nous avons entra\u00een\u00e9 les langues disposant de ressources abondantes pendant quelques it\u00e9rations avant d\u2019ajouter les paires de langues pour lesquelles nous disposions de peu de ressources afin de r\u00e9duire le probl\u00e8me de surajustement. Ensuite, pour faire face \u00e0 la faible quantit\u00e9 de donn\u00e9es bitextuelles parall\u00e8les des langues moins repr\u00e9sent\u00e9es, nous avons mis \u00e0 profit un mod\u00e8le d\u2019auto-apprentissage sur les donn\u00e9es monolingues de ces langues ainsi que des langues mieux repr\u00e9sent\u00e9es qui leur ressemblent afin d\u2019am\u00e9liorer les performances globales du mod\u00e8le. Enfin, nous avons analys\u00e9 la meilleure fa\u00e7on de g\u00e9n\u00e9rer des donn\u00e9es de retraduction et avons d\u00e9couvert que le m\u00e9lange de donn\u00e9es retraduites \u00e0 l\u2019aide de mod\u00e8les de traduction statistique bilingue et de traduction neuronale multilingue permettait d\u2019am\u00e9liorer les performances de traduction des langues moins repr\u00e9sent\u00e9es gr\u00e2ce \u00e0 la plus grande diversit\u00e9 des donn\u00e9es synth\u00e9tiques g\u00e9n\u00e9r\u00e9es. Pour entra\u00eener le mod\u00e8le NLLB-200, qui comporte 54 milliards de param\u00e8tres, nous nous sommes servis de notre tout nouveau superordinateur d\u2019IA Research SuperCluster (RSC), un des plus rapides au monde. Concevoir des outils d\u2019\u00e9valuation et de r\u00e9duction des risques pour plus de 200 langues Pour \u00e9valuer et am\u00e9liorer le mod\u00e8le NLLB-200, nous avons mis au point un ensemble de donn\u00e9es d\u2019\u00e9valuation plusieurs-\u00e0-plusieurs unique, baptis\u00e9 FLORES-200. Cet ensemble permet aux chercheurs d\u2019\u00e9valuer les performances du mod\u00e8le dans 40 000 sens de traduction diff\u00e9rents. Nous mettons en acc\u00e8s libre cet ensemble de donn\u00e9es pour aider d\u2019autres chercheurs \u00e0 tester rapidement et \u00e0 am\u00e9liorer leurs mod\u00e8les de traduction. L\u2019ensemble FLORES-200 permet d\u2019\u00e9valuer les syst\u00e8mes de traduction pour un grand nombre d\u2019applications, notamment des brochures sant\u00e9, des films, des livres et du contenu en ligne dans des pays ou des r\u00e9gions dont les langues sont repr\u00e9sent\u00e9es par un faible nombre de ressources. Le passage \u00e0 200 langues n\u00e9cessitait de pr\u00e9venir les risques de g\u00e9n\u00e9ration de contenu toxique, qui peuvent \u00eatre difficiles \u00e0 g\u00e9rer dans un syst\u00e8me de traduction multilingue. Pour ce faire, nous avons \u00e9tabli une liste d\u2019expressions toxiques pour toutes les langues prises en charge afin de permettre la d\u00e9tection et le filtrage des injures et de tout autre contenu potentiellement offensant. Nous publions nos r\u00e9f\u00e9rences et nos listes d\u2019\u00e9valuation des expressions toxiques pour l\u2019ensemble des 200 langues afin de donner aux autres chercheurs un outil leur permettant de r\u00e9duire les risques de leurs mod\u00e8les. Pour \u00eatre certains d\u2019\u0153uvrer de la mani\u00e8re la plus responsable possible, nous avons fait appel \u00e0 une \u00e9quipe interdisciplinaire de linguistes, de sociologues et d\u2019ethnologues pour chacune des langues concern\u00e9es. Le graphique ci-dessus indique le score BLEU moyen sur le corpus FLORES-101 de traductions de 100 langues \u00e0 partir de l\u2019anglais et vers celui-ci. \u00c0 gauche, M2M et Delta LM, deux mod\u00e8les de pointe publi\u00e9s qui prennent en charge 100 langues. \u00c0 droite, des mod\u00e8les qui prennent en charge 200 langues : un mod\u00e8le Transformer de r\u00e9f\u00e9rence avec 3,3 milliards de param\u00e8tres, un mod\u00e8le de r\u00e9f\u00e9rence avec auto-apprentissage, un mod\u00e8le de r\u00e9f\u00e9rence avec retraduction, et NLLB-200, un mod\u00e8le de type Mixture of Experts qui exploite l\u2019auto-apprentissage et la retraduction. D\u00e9velopper la traduction et renforcer l\u2019inclusion Les outils de traduction de haute qualit\u00e9 peuvent \u00eatre r\u00e9volutionnaires. Aujourd\u2019hui, la r\u00e9alit\u00e9 est que le web est domin\u00e9 par une poign\u00e9e de langues, notamment l\u2019anglais, le mandarin, l\u2019espagnol et l\u2019arabe. Les locuteurs natifs de ces langues peuvent avoir du mal \u00e0 se repr\u00e9senter l\u2019importance de pouvoir lire quelque chose dans leur langue natale. Nous pensons que l\u2019initiative NLLB aidera \u00e0 pr\u00e9server le message original de chaque langue plut\u00f4t que de risquer souvent de le perdre en faisant appel \u00e0 une langue interm\u00e9diaire. Outre la traduction, elle permettra \u00e9galement de r\u00e9aliser des progr\u00e8s dans d\u2019autres domaines du traitement naturel des langues. Cela peut inclure le d\u00e9veloppement d\u2019assistants fonctionnant dans des langues tels que le javanais ou l\u2019ouzbek, ou encore la cr\u00e9ation de syst\u00e8mes permettant de sous-titrer pr\u00e9cis\u00e9ment des films de Bollywood en swahili ou oromo. Avec l\u2019\u00e9mergence du m\u00e9tavers, la possibilit\u00e9 de cr\u00e9er des technologies qui fonctionnent correctement dans des centaines ou m\u00eame des milliers de langues facilitera grandement l\u2019acc\u00e8s du plus grand nombre \u00e0 de nouvelles exp\u00e9riences immersives dans des mondes virtuels. Il y a seulement quelques ann\u00e9es, la traduction automatique de haute qualit\u00e9 ne fonctionnait que dans quelques langues. Gr\u00e2ce au mod\u00e8le NLLB-200, nous avons fait un pas de plus vers des syst\u00e8mes permettant \u00e0 tout le monde de communiquer avec tous les interlocuteurs de son choix. Nous sommes enthousiastes \u00e0 l\u2019id\u00e9e de tout ce que cela peut repr\u00e9senter aujourd\u2019hui et \u00e0 l\u2019avenir, et nous continuerons de repousser les limites de la traduction automatique. Ce travail a \u00e9t\u00e9 r\u00e9alis\u00e9 par une \u00e9quipe pluridisciplinaire de Meta AI, notamment : Bapi Akula, Pierre Andrews, Necip Fazil Ayan, Loic Barrault, Shruti Bhosale, Marta Ruiz Costa-jussa, James Cross, Onur \u00c7elebi, Sergey Edunov, Maha Elbayad, Angela Fan, Cynthia Gao, Gabriel Mejia Gonzalez, Vedanuj Goswami, Francisco Guzm\u00e1n, Prangthip Hansanti, Kennet Heafield, Kevin Heffernan, John Hoffman, Semarley Jarrett, Elahe Kalbassi, Philipp Koehn, Janice Lam, Daniel Licht, Jean Maillard, Alexandre Mourachko, Christophe Ropers, Kaushik Ram Sadagopan, Safiyyah Saleem, Holger Schwenk, Shannon Spruit, Anna Sun, Chau Tran, Skyler Wang, Guillaume Wenzek, Jeff Wang et Al Youngblood.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/\" \/>\n<meta property=\"og:site_name\" content=\"\u00c0 propos de Meta\" \/>\n<meta property=\"article:published_time\" content=\"2022-07-06T14:31:23+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/NLLB-1.jpg?resize=1024,576\" \/>\n\t<meta property=\"og:image:width\" content=\"1024\" \/>\n\t<meta property=\"og:image:height\" content=\"576\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"hopscotch\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@METAfrance\" \/>\n<meta name=\"twitter:label1\" content=\"Written by\" \/>\n\t<meta name=\"twitter:data1\" content=\"Meta\" \/>\n\t<meta name=\"twitter:label2\" content=\"Est. reading time\" \/>\n\t<meta name=\"twitter:data2\" content=\"13 minutes\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/#article\",\"isPartOf\":{\"@id\":\"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/\"},\"author\":\"Facebook company\",\"headline\":\"200 langues pour un seul mod\u00e8le d\u2019IA : une perc\u00e9e dans la traduction automatique de qualit\u00e9\",\"datePublished\":\"2022-07-06T14:31:23+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/\"},\"wordCount\":3088,\"publisher\":{\"@id\":\"https:\/\/about.fb.com\/fr\/#organization\"},\"image\":{\"@id\":\"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/NLLB-1.jpg?fit=1920%2C1080\",\"keywords\":[\"FAIR\",\"FLORES\",\"IA\",\"Langues\",\"NLLB\",\"recherche\",\"traduction\"],\"articleSection\":[\"Actualit\u00e9s\",\"Meta\"],\"inLanguage\":\"fr-FR\"},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/\",\"url\":\"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/\",\"name\":\"200 langues pour un seul mod\u00e8le d\u2019IA : une perc\u00e9e dans la traduction automatique de qualit\u00e9 | \u00c0 propos de Meta\",\"isPartOf\":{\"@id\":\"https:\/\/about.fb.com\/fr\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/NLLB-1.jpg?fit=1920%2C1080\",\"datePublished\":\"2022-07-06T14:31:23+00:00\",\"breadcrumb\":{\"@id\":\"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/#breadcrumb\"},\"inLanguage\":\"fr-FR\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/\"]}],\"author\":\"\u00c0 propos de Meta\"},{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/#primaryimage\",\"url\":\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/NLLB-1.jpg?fit=1920%2C1080\",\"contentUrl\":\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/NLLB-1.jpg?fit=1920%2C1080\",\"width\":1920,\"height\":1080},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/about.fb.com\/fr\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"200 langues pour un seul mod\u00e8le d\u2019IA : une perc\u00e9e dans la traduction automatique de qualit\u00e9\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/about.fb.com\/fr\/#website\",\"url\":\"https:\/\/about.fb.com\/news\/\",\"name\":\"\u00c0 propos de Meta\",\"description\":\"\",\"publisher\":{\"@id\":\"https:\/\/about.fb.com\/fr\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/about.fb.com\/fr\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"fr-FR\",\"alternateName\":[\"Meta Newsroom\",\"Meta\"]},{\"@type\":\"Organization\",\"@id\":\"https:\/\/about.fb.com\/fr\/#organization\",\"name\":\"Meta\",\"url\":\"https:\/\/about.fb.com\/fr\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/about.fb.com\/fr\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500\",\"contentUrl\":\"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500\",\"width\":8000,\"height\":4500,\"caption\":\"Meta\"},\"image\":{\"@id\":\"https:\/\/about.fb.com\/fr\/#\/schema\/logo\/image\/\"}}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"200 langues pour un seul mod\u00e8le d\u2019IA : une perc\u00e9e dans la traduction automatique de qualit\u00e9 | \u00c0 propos de Meta","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/","og_locale":"fr_FR","og_type":"article","og_title":"200 langues pour un seul mod\u00e8le d\u2019IA : une perc\u00e9e dans la traduction automatique de qualit\u00e9 | \u00c0 propos de Meta","og_description":"Meta AI a mis au point un mod\u00e8le d\u2019IA unique, NLLB-200, qui est le premier \u00e0 traduire dans 200 langues diff\u00e9rentes avec une qualit\u00e9 de pointe valid\u00e9e par des \u00e9valuations pouss\u00e9es pour chacune d\u2019entre elles. Nous avons \u00e9galement cr\u00e9\u00e9 un nouvel ensemble de donn\u00e9es d\u2019\u00e9valuation, FLORES-200, et mesur\u00e9 les performances de NLLB-200 dans chaque langue pour confirmer que les traductions sont de qualit\u00e9. En moyenne, NLLB-200 a r\u00e9alis\u00e9 des scores 44 % sup\u00e9rieurs au pr\u00e9c\u00e9dent mod\u00e8le le plus performant. Nous nous appuyons d\u00e9sormais sur des techniques de mod\u00e9lisation et sur les conclusions tir\u00e9es du projet pour am\u00e9liorer et \u00e9tendre les traductions sur Facebook, Instagram et Wikip\u00e9dia. Nous mettons en libre acc\u00e8s les mod\u00e8les NLLB-200, l\u2019ensemble de donn\u00e9es FLORES-200, le code d\u2019apprentissage des mod\u00e8les et le code permettant de recr\u00e9er l\u2019ensemble de donn\u00e9es d\u2019apprentissage afin d\u2019aider d\u2019autres chercheurs \u00e0 am\u00e9liorer leurs outils de traduction et \u00e0 s\u2019appuyer sur nos travaux. La langue est notre culture, notre identit\u00e9 et notre lien avec le monde. Mais compte tenu de l\u2019absence d\u2019outils de traduction de qualit\u00e9 pour des centaines de langues, des milliards de personnes ne peuvent pas acc\u00e9der aux contenus num\u00e9riques ni participer pleinement aux conversations et aux communaut\u00e9s en ligne dans leur langue de pr\u00e9dilection ou maternelle. Cela est particuli\u00e8rement vrai pour les centaines de millions de locuteurs des diverses langues d\u2019Afrique et d\u2019Asie. Pour aider tout un chacun \u00e0 mieux se connecter aujourd\u2019hui et \u00e0 prendre part au m\u00e9tavers de demain, les chercheurs de Meta AI ont cr\u00e9\u00e9 No Language Left Behind (NLLB), une initiative visant \u00e0 d\u00e9velopper des fonctionnalit\u00e9s de traduction automatique de haute qualit\u00e9 pour la plupart des langues du monde. Nous annon\u00e7ons aujourd\u2019hui une avanc\u00e9e importante concernant NLLB : nous avons d\u00e9velopp\u00e9 un mod\u00e8le d\u2019IA unique appel\u00e9 NLLB-200, qui traduit 200 langues diff\u00e9rentes avec des r\u00e9sultats exceptionnels. Nombre de ces langues, telles que le kamba et le lao, n\u2019\u00e9taient pas ou peu prises en charge, m\u00eame par les meilleurs outils de traduction existants aujourd\u2019hui. Moins de 25 langues africaines sont actuellement prises en charge par les outils de traduction les plus r\u00e9pandus, dont beaucoup sont de mauvaise qualit\u00e9. En comparaison, NLLB-200 prend en charge 55 langues africaines avec des r\u00e9sultats exceptionnels. Au total, ce mod\u00e8le unique peut fournir des traductions de qualit\u00e9 pour des langues parl\u00e9es par des milliards de locuteurs dans le monde. En moyenne, les scores BLEU du mod\u00e8le NLLB-200 sont sup\u00e9rieurs de 44 % \u00e0 ceux du pr\u00e9c\u00e9dent mod\u00e8le le plus performant sur l\u2019ensemble des 10 000 sens de traduction des donn\u00e9es de r\u00e9f\u00e9rence FLORES-101. Pour certaines langues africaines et indiennes, cette diff\u00e9rence d\u00e9passe 70 % par rapport aux syst\u00e8mes de traduction r\u00e9cents. Nous mettons d\u00e9sormais le mod\u00e8le NLLB-200 en libre acc\u00e8s et publions un ensemble d\u2019outils pour aider d\u2019autres chercheurs \u00e0 \u00e9tendre nos travaux \u00e0 de nouvelles langues et \u00e0 mettre au point des technologies plus inclusives. Meta AI verse \u00e9galement jusqu\u2019\u00e0 200 000 $ de subventions \u00e0 des organisations \u00e0 but non lucratif afin de les aider \u00e0 d\u00e9velopper des applications concr\u00e8tes du mod\u00e8le NLLB-200. Les avanc\u00e9es scientifiques r\u00e9alis\u00e9es gr\u00e2ce \u00e0 l\u2019initiative NLLB permettront d\u2019am\u00e9liorer plus de 25 milliards de traductions effectu\u00e9es chaque jour sur le fil d\u2019actualit\u00e9 de Facebook, Instagram et nos autres plateformes. Imaginez-vous pouvoir consulter votre groupe Facebook favori, trouver une publication en igbo ou luganda et la comprendre dans votre propre langue d\u2019un simple clic. L\u2019am\u00e9lioration de la pr\u00e9cision des traductions dans plusieurs langues pourra \u00e9galement faciliter le rep\u00e9rage des contenus nuisibles et des fausses informations, afin de pr\u00e9server l\u2019int\u00e9grit\u00e9 des \u00e9lections et lutter contre les ph\u00e9nom\u00e8nes d\u2019exploitation sexuelle et de traite d\u2019\u00eatres humains en ligne. Les techniques de mod\u00e9lisation et les d\u00e9couvertes de notre recherche NLLB sont d\u00e9sormais utilis\u00e9es par les syst\u00e8mes de traduction des \u00e9diteurs de Wikip\u00e9dia. La traduction est l\u2019une des perspectives les plus int\u00e9ressantes de l\u2019IA, car elle a beaucoup d\u2019incidence sur le quotidien des internautes. L\u2019initiative NLLB ne vise pas seulement \u00e0 renforcer l\u2019accessibilit\u00e9 des contenus sur le web. Elle permet aux internautes d\u2019\u00e9changer et de partager plus facilement des informations entre plusieurs langues. Nous avons encore du chemin \u00e0 parcourir, mais ces r\u00e9cents progr\u00e8s nous remplissent d\u2019espoir et nous aident \u00e0 mieux accomplir la mission de Meta. Vous trouverez ici une d\u00e9monstration du mod\u00e8le NLLB-200 pour constater sa capacit\u00e9 \u00e0 traduire des histoires du monde entier. Vous pourrez \u00e9galement lire nos travaux de recherche. Proposer des outils de traduction \u00e0 des milliards de locuteurs suppl\u00e9mentaires Nous avons travaill\u00e9 en partenariat avec la fondation Wikim\u00e9dia, une organisation \u00e0 but non lucratif qui h\u00e9berge Wikip\u00e9dia et d\u2019autres sites d\u2019acc\u00e8s gratuit au savoir, pour aider \u00e0 am\u00e9liorer les syst\u00e8mes de traduction de Wikip\u00e9dia. Wikip\u00e9dia poss\u00e8de des versions en plus de 300 langues, mais la plupart des versions sont loin d\u2019approcher les plus de 6 millions d\u2019articles du Wikip\u00e9dia anglais. Cet \u00e9cart est particuli\u00e8rement marqu\u00e9 pour les langues principalement parl\u00e9es en dehors de l\u2019Europe et de l\u2019Am\u00e9rique du Nord. Par exemple, il n\u2019existe qu\u2019environ 3 260 articles de Wikip\u00e9dia en lingala, une langue qui compte 45 millions de locuteurs dans la R\u00e9publique d\u00e9mocratique du Congo, la R\u00e9publique du Congo, la R\u00e9publique Centrafrique et le Soudan du Sud. \u00c0 titre de comparaison, il existe plus de 2,5 millions d\u2019articles en su\u00e9dois, alors que cette langue est parl\u00e9e par 10 millions de locuteurs en Su\u00e8de et en Finlande. Les \u00e9diteurs de Wikip\u00e9dia ont d\u00e9sormais acc\u00e8s \u00e0 la technologie \u00e0 l\u2019origine du mod\u00e8le NLLB-200 via l\u2019outil de traduction de contenu de la fondation Wikim\u00e9dia. Ils peuvent ainsi traduire des articles dans plus de 20 langues pour lesquelles peu de ressources existent (qui manquent d\u2019ensembles de donn\u00e9es exhaustifs pour entra\u00eener des syst\u00e8mes d\u2019IA), dont 10 qui n\u2019\u00e9taient pas encore prises en charge par les outils de traduction automatique de la plateforme. R\u00e9ussir \u00e0 construire un seul mod\u00e8le pour des centaines de langues Les syst\u00e8mes de traduction automatique, comme tous les mod\u00e8les d\u2019IA, sont entra\u00een\u00e9s sur des donn\u00e9es. Dans le cas des syst\u00e8mes de traduction textuelle, cela repr\u00e9sente g\u00e9n\u00e9ralement des millions de phrases soigneusement mises en correspondance dans plusieurs langues. Mais le volume disponible de phrases parall\u00e8les n\u2019est simplement pas le m\u00eame en anglais qu\u2019en peul. Les mod\u00e8les de traduction actuels essaient de combler cet \u00e9cart en extrayant des donn\u00e9es du web. Mais cela donne souvent des r\u00e9sultats de pi\u00e8tre qualit\u00e9, car le texte source n\u2019est pas le m\u00eame pour toutes les langues. De plus, le web contient un grand nombre de fautes et d\u2019incoh\u00e9rences orthographiques. Les accents et les autres signes diacritiques y sont souvent omis. Un autre d\u00e9fi important \u00e0 relever consiste \u00e0 optimiser un seul mod\u00e8le de fa\u00e7on \u00e0 le faire fonctionner pour des centaines de langues sans perdre en performances ou en qualit\u00e9 de la traduction. Traditionnellement, le meilleur moyen d\u2019obtenir la plus haute qualit\u00e9 de traduction possible \u00e9tait de cr\u00e9er un mod\u00e8le distinct pour chaque combinaison de langues. Mais cette approche est peu \u00e9volutive : les performances et la qualit\u00e9 de la traduction se d\u00e9gradent lors de l\u2019ajout de nouvelles langues. Les mod\u00e8les de traduction g\u00e9n\u00e8rent \u00e9galement des erreurs qui sont difficiles \u00e0 rep\u00e9rer. Ces syst\u00e8mes sont bas\u00e9s sur les m\u00eames r\u00e9seaux neuronaux que ceux utilis\u00e9s pour la g\u00e9n\u00e9ration de texte. Ils g\u00e9n\u00e8rent donc naturellement les m\u00eames types d\u2019erreurs : fausses affirmations, inexactitude, contenu dangereux, etc. En r\u00e8gle g\u00e9n\u00e9rale, certaines langues disposent simplement d\u2019un nombre plus r\u00e9duit d\u2019\u00e9l\u00e9ments de r\u00e9f\u00e9rence et d\u2019ensembles de donn\u00e9es, ce qui complique drastiquement les processus de test et d\u2019am\u00e9lioration des mod\u00e8les. Innover dans les domaines de l\u2019architecture, de la collecte de donn\u00e9es, de l\u2019\u00e9tablissement de r\u00e9f\u00e9rences et autres Au cours des derni\u00e8res ann\u00e9es, nous avons fait d\u2019importants progr\u00e8s pour franchir tous ces obstacles. En 2020, nous avons pr\u00e9sent\u00e9 notre mod\u00e8le de traduction en 100 langues, le M2M-100, qui s\u2019appuyait sur de nouvelles m\u00e9thodes d\u2019acquisition des donn\u00e9es d\u2019entra\u00eenement, de nouvelles architectures permettant d\u2019ajuster la taille du mod\u00e8le sans nuire aux performances, ainsi que de nouveaux moyens d\u2019\u00e9valuer et d\u2019am\u00e9liorer les r\u00e9sultats. Pour ajouter 100 langues suppl\u00e9mentaires, nous avons d\u00fb progresser sur ces trois derniers points. \u00c9toffer les ressources d\u2019entra\u00eenement Pour collecter des textes parall\u00e8les de grande qualit\u00e9 dans un plus grand nombre de langues, nous avons am\u00e9lior\u00e9 LASER, notre bo\u00eete \u00e0 outils de transfert zero-shot pour le traitement naturel du langage. La nouvelle version LASER3, qui remplace les r\u00e9seaux LSTM (long short-term memory), utilise un mod\u00e8le Transformer auto-entra\u00een\u00e9 avec l\u2019objectif MLM (masked language modeling). Nous avons am\u00e9lior\u00e9 ses performances en recourant \u00e0 des proc\u00e9dures d\u2019entra\u00eenement professeur-\u00e9l\u00e8ve, ainsi qu\u2019en cr\u00e9ant des encodeurs propres \u00e0 chaque groupe de langues. Cela nous a permis d\u2019\u00e9largir la couverture linguistique du LASER3 et de produire d\u2019importants volumes de phrases parall\u00e8les, y compris pour les langues p\u00e2tissant d\u2019un manque de ressources. Nous mettons la m\u00e9thode d\u2019incorporation multilingue du LASER3 \u00e0 la libre disposition des autres chercheurs. Nous publions \u00e9galement des milliards de phrases parall\u00e8les dans plusieurs combinaisons de langues que nous avons extraites et nettoy\u00e9es \u00e0 l\u2019aide des techniques d\u00e9crites ici. Comme nous avons \u00e9largi nos sources de donn\u00e9es d\u2019entra\u00eenement en plusieurs langues, nous devions imp\u00e9rativement nous assurer que les exemples resteraient de bonne qualit\u00e9. Nous avons enti\u00e8rement repens\u00e9 notre pipeline de nettoyage des donn\u00e9es pour pouvoir traiter 200 langues en ajoutant plusieurs \u00e9tapes de filtrage essentielles . Par exemple, nous commen\u00e7ons par utiliser nos mod\u00e8les LID-200 pour filtrer les donn\u00e9es et r\u00e9duire le bruit des corpus web avec un haut niveau de pr\u00e9cision. Nous avons \u00e9tabli des listes d\u2019expressions dites toxiques pour chacune des 200 langues et les avons utilis\u00e9es pour \u00e9valuer et filtrer les r\u00e9sultats potentiellement nuisibles. Ces \u00e9tapes nous ont permis de nous assurer que nous disposons d\u2019ensemble de donn\u00e9es plus propres et moins offensants avec des langues correctement identifi\u00e9es. Ce travail est important pour am\u00e9liorer la qualit\u00e9 de la traduction et r\u00e9duire le risque d\u2019expressions toxiques (introduction de contenu nuisible par le syst\u00e8me lors du processus de traduction). Ajuster la taille du mod\u00e8le sans nuire aux performances Les syst\u00e8mes de traduction multilingue pr\u00e9sentent deux principaux avantages. Ils permettent de partager des donn\u00e9es d\u2019entra\u00eenement entre des langues qui se ressemblent, comme l\u2019assamais et le bengali qui utilisent tous les deux l\u2019alphasyllabaire bengali. Ils aident ainsi \u00e0 am\u00e9liorer consid\u00e9rablement la qualit\u00e9 de la traduction pour les langues disposant d\u2019une faible quantit\u00e9 de ressources quand elles sont entra\u00een\u00e9es avec des langues plus document\u00e9es. Les chercheurs peuvent \u00e9galement reproduire, redimensionner et tester plus facilement un seul mod\u00e8le multilingue que des centaines ou des milliers de mod\u00e8les bilingues. Toutefois, l\u2019\u00e9largissement d\u2019un mod\u00e8le de 100 \u00e0 200 langues pr\u00e9sente d\u2019autres d\u00e9fis ardus. Lors de l\u2019augmentation du nombre de paires de langues pour lesquelles nous disposons de peu de ressources dans les donn\u00e9es d\u2019entra\u00eenement, les mod\u00e8les multilingues tendent progressivement vers une situation de surajustement au fur et \u00e0 mesure de leur entra\u00eenement. Nous avons r\u00e9solu ces probl\u00e8mes en innovant sur trois fronts : la r\u00e9gularisation et l\u2019apprentissage progressif, l\u2019auto-apprentissage et la diversification de la retraduction. Nous avons commenc\u00e9 par d\u00e9velopper des r\u00e9seaux de type Mixture of Experts avec une capacit\u00e9 partag\u00e9e et sp\u00e9cialis\u00e9e afin de rediriger automatiquement les langues avec peu de donn\u00e9es vers cette capacit\u00e9. Conjointement avec l\u2019utilisation de syst\u00e8mes de r\u00e9gularisation plus efficaces, cela permet d\u2019\u00e9viter le surajustement. Nous avons \u00e9galement adopt\u00e9 une approche d\u2019apprentissage progressif en deux \u00e9tapes. Tout d\u2019abord, nous avons entra\u00een\u00e9 les langues disposant de ressources abondantes pendant quelques it\u00e9rations avant d\u2019ajouter les paires de langues pour lesquelles nous disposions de peu de ressources afin de r\u00e9duire le probl\u00e8me de surajustement. Ensuite, pour faire face \u00e0 la faible quantit\u00e9 de donn\u00e9es bitextuelles parall\u00e8les des langues moins repr\u00e9sent\u00e9es, nous avons mis \u00e0 profit un mod\u00e8le d\u2019auto-apprentissage sur les donn\u00e9es monolingues de ces langues ainsi que des langues mieux repr\u00e9sent\u00e9es qui leur ressemblent afin d\u2019am\u00e9liorer les performances globales du mod\u00e8le. Enfin, nous avons analys\u00e9 la meilleure fa\u00e7on de g\u00e9n\u00e9rer des donn\u00e9es de retraduction et avons d\u00e9couvert que le m\u00e9lange de donn\u00e9es retraduites \u00e0 l\u2019aide de mod\u00e8les de traduction statistique bilingue et de traduction neuronale multilingue permettait d\u2019am\u00e9liorer les performances de traduction des langues moins repr\u00e9sent\u00e9es gr\u00e2ce \u00e0 la plus grande diversit\u00e9 des donn\u00e9es synth\u00e9tiques g\u00e9n\u00e9r\u00e9es. Pour entra\u00eener le mod\u00e8le NLLB-200, qui comporte 54 milliards de param\u00e8tres, nous nous sommes servis de notre tout nouveau superordinateur d\u2019IA Research SuperCluster (RSC), un des plus rapides au monde. Concevoir des outils d\u2019\u00e9valuation et de r\u00e9duction des risques pour plus de 200 langues Pour \u00e9valuer et am\u00e9liorer le mod\u00e8le NLLB-200, nous avons mis au point un ensemble de donn\u00e9es d\u2019\u00e9valuation plusieurs-\u00e0-plusieurs unique, baptis\u00e9 FLORES-200. Cet ensemble permet aux chercheurs d\u2019\u00e9valuer les performances du mod\u00e8le dans 40 000 sens de traduction diff\u00e9rents. Nous mettons en acc\u00e8s libre cet ensemble de donn\u00e9es pour aider d\u2019autres chercheurs \u00e0 tester rapidement et \u00e0 am\u00e9liorer leurs mod\u00e8les de traduction. L\u2019ensemble FLORES-200 permet d\u2019\u00e9valuer les syst\u00e8mes de traduction pour un grand nombre d\u2019applications, notamment des brochures sant\u00e9, des films, des livres et du contenu en ligne dans des pays ou des r\u00e9gions dont les langues sont repr\u00e9sent\u00e9es par un faible nombre de ressources. Le passage \u00e0 200 langues n\u00e9cessitait de pr\u00e9venir les risques de g\u00e9n\u00e9ration de contenu toxique, qui peuvent \u00eatre difficiles \u00e0 g\u00e9rer dans un syst\u00e8me de traduction multilingue. Pour ce faire, nous avons \u00e9tabli une liste d\u2019expressions toxiques pour toutes les langues prises en charge afin de permettre la d\u00e9tection et le filtrage des injures et de tout autre contenu potentiellement offensant. Nous publions nos r\u00e9f\u00e9rences et nos listes d\u2019\u00e9valuation des expressions toxiques pour l\u2019ensemble des 200 langues afin de donner aux autres chercheurs un outil leur permettant de r\u00e9duire les risques de leurs mod\u00e8les. Pour \u00eatre certains d\u2019\u0153uvrer de la mani\u00e8re la plus responsable possible, nous avons fait appel \u00e0 une \u00e9quipe interdisciplinaire de linguistes, de sociologues et d\u2019ethnologues pour chacune des langues concern\u00e9es. Le graphique ci-dessus indique le score BLEU moyen sur le corpus FLORES-101 de traductions de 100 langues \u00e0 partir de l\u2019anglais et vers celui-ci. \u00c0 gauche, M2M et Delta LM, deux mod\u00e8les de pointe publi\u00e9s qui prennent en charge 100 langues. \u00c0 droite, des mod\u00e8les qui prennent en charge 200 langues : un mod\u00e8le Transformer de r\u00e9f\u00e9rence avec 3,3 milliards de param\u00e8tres, un mod\u00e8le de r\u00e9f\u00e9rence avec auto-apprentissage, un mod\u00e8le de r\u00e9f\u00e9rence avec retraduction, et NLLB-200, un mod\u00e8le de type Mixture of Experts qui exploite l\u2019auto-apprentissage et la retraduction. D\u00e9velopper la traduction et renforcer l\u2019inclusion Les outils de traduction de haute qualit\u00e9 peuvent \u00eatre r\u00e9volutionnaires. Aujourd\u2019hui, la r\u00e9alit\u00e9 est que le web est domin\u00e9 par une poign\u00e9e de langues, notamment l\u2019anglais, le mandarin, l\u2019espagnol et l\u2019arabe. Les locuteurs natifs de ces langues peuvent avoir du mal \u00e0 se repr\u00e9senter l\u2019importance de pouvoir lire quelque chose dans leur langue natale. Nous pensons que l\u2019initiative NLLB aidera \u00e0 pr\u00e9server le message original de chaque langue plut\u00f4t que de risquer souvent de le perdre en faisant appel \u00e0 une langue interm\u00e9diaire. Outre la traduction, elle permettra \u00e9galement de r\u00e9aliser des progr\u00e8s dans d\u2019autres domaines du traitement naturel des langues. Cela peut inclure le d\u00e9veloppement d\u2019assistants fonctionnant dans des langues tels que le javanais ou l\u2019ouzbek, ou encore la cr\u00e9ation de syst\u00e8mes permettant de sous-titrer pr\u00e9cis\u00e9ment des films de Bollywood en swahili ou oromo. Avec l\u2019\u00e9mergence du m\u00e9tavers, la possibilit\u00e9 de cr\u00e9er des technologies qui fonctionnent correctement dans des centaines ou m\u00eame des milliers de langues facilitera grandement l\u2019acc\u00e8s du plus grand nombre \u00e0 de nouvelles exp\u00e9riences immersives dans des mondes virtuels. Il y a seulement quelques ann\u00e9es, la traduction automatique de haute qualit\u00e9 ne fonctionnait que dans quelques langues. Gr\u00e2ce au mod\u00e8le NLLB-200, nous avons fait un pas de plus vers des syst\u00e8mes permettant \u00e0 tout le monde de communiquer avec tous les interlocuteurs de son choix. Nous sommes enthousiastes \u00e0 l\u2019id\u00e9e de tout ce que cela peut repr\u00e9senter aujourd\u2019hui et \u00e0 l\u2019avenir, et nous continuerons de repousser les limites de la traduction automatique. Ce travail a \u00e9t\u00e9 r\u00e9alis\u00e9 par une \u00e9quipe pluridisciplinaire de Meta AI, notamment : Bapi Akula, Pierre Andrews, Necip Fazil Ayan, Loic Barrault, Shruti Bhosale, Marta Ruiz Costa-jussa, James Cross, Onur \u00c7elebi, Sergey Edunov, Maha Elbayad, Angela Fan, Cynthia Gao, Gabriel Mejia Gonzalez, Vedanuj Goswami, Francisco Guzm\u00e1n, Prangthip Hansanti, Kennet Heafield, Kevin Heffernan, John Hoffman, Semarley Jarrett, Elahe Kalbassi, Philipp Koehn, Janice Lam, Daniel Licht, Jean Maillard, Alexandre Mourachko, Christophe Ropers, Kaushik Ram Sadagopan, Safiyyah Saleem, Holger Schwenk, Shannon Spruit, Anna Sun, Chau Tran, Skyler Wang, Guillaume Wenzek, Jeff Wang et Al Youngblood.","og_url":"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/","og_site_name":"\u00c0 propos de Meta","article_published_time":"2022-07-06T14:31:23+00:00","og_image":[{"width":1024,"height":576,"url":"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/NLLB-1.jpg?resize=1024,576","type":"image\/jpeg"}],"author":"hopscotch","twitter_card":"summary_large_image","twitter_creator":"@METAfrance","twitter_misc":{"Written by":"Meta","Est. reading time":"13 minutes"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/#article","isPartOf":{"@id":"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/"},"author":"Facebook company","headline":"200 langues pour un seul mod\u00e8le d\u2019IA : une perc\u00e9e dans la traduction automatique de qualit\u00e9","datePublished":"2022-07-06T14:31:23+00:00","mainEntityOfPage":{"@id":"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/"},"wordCount":3088,"publisher":{"@id":"https:\/\/about.fb.com\/fr\/#organization"},"image":{"@id":"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/#primaryimage"},"thumbnailUrl":"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/NLLB-1.jpg?fit=1920%2C1080","keywords":["FAIR","FLORES","IA","Langues","NLLB","recherche","traduction"],"articleSection":["Actualit\u00e9s","Meta"],"inLanguage":"fr-FR"},{"@type":"WebPage","@id":"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/","url":"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/","name":"200 langues pour un seul mod\u00e8le d\u2019IA : une perc\u00e9e dans la traduction automatique de qualit\u00e9 | \u00c0 propos de Meta","isPartOf":{"@id":"https:\/\/about.fb.com\/fr\/#website"},"primaryImageOfPage":{"@id":"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/#primaryimage"},"image":{"@id":"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/#primaryimage"},"thumbnailUrl":"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/NLLB-1.jpg?fit=1920%2C1080","datePublished":"2022-07-06T14:31:23+00:00","breadcrumb":{"@id":"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/#breadcrumb"},"inLanguage":"fr-FR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/"]}],"author":"\u00c0 propos de Meta"},{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/#primaryimage","url":"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/NLLB-1.jpg?fit=1920%2C1080","contentUrl":"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/NLLB-1.jpg?fit=1920%2C1080","width":1920,"height":1080},{"@type":"BreadcrumbList","@id":"https:\/\/about.fb.com\/fr\/news\/2022\/07\/200-langues-pour-un-seul-modele-dia-une-percee-dans-la-traduction-automatique-de-qualite\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/about.fb.com\/fr\/"},{"@type":"ListItem","position":2,"name":"200 langues pour un seul mod\u00e8le d\u2019IA : une perc\u00e9e dans la traduction automatique de qualit\u00e9"}]},{"@type":"WebSite","@id":"https:\/\/about.fb.com\/fr\/#website","url":"https:\/\/about.fb.com\/news\/","name":"\u00c0 propos de Meta","description":"","publisher":{"@id":"https:\/\/about.fb.com\/fr\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/about.fb.com\/fr\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"fr-FR","alternateName":["Meta Newsroom","Meta"]},{"@type":"Organization","@id":"https:\/\/about.fb.com\/fr\/#organization","name":"Meta","url":"https:\/\/about.fb.com\/fr\/","logo":{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/about.fb.com\/fr\/#\/schema\/logo\/image\/","url":"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500","contentUrl":"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500","width":8000,"height":4500,"caption":"Meta"},"image":{"@id":"https:\/\/about.fb.com\/fr\/#\/schema\/logo\/image\/"}}]}},"jetpack_featured_media_url":"https:\/\/about.fb.com\/fr\/wp-content\/uploads\/sites\/12\/2022\/07\/NLLB-1.jpg?fit=1920%2C1080","jetpack-related-posts":[],"jetpack_sharing_enabled":true,"amp_enabled":true,"_links":{"self":[{"href":"https:\/\/about.fb.com\/fr\/wp-json\/wp\/v2\/posts\/23146","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/about.fb.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/about.fb.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/about.fb.com\/fr\/wp-json\/wp\/v2\/users\/164097090"}],"replies":[{"embeddable":true,"href":"https:\/\/about.fb.com\/fr\/wp-json\/wp\/v2\/comments?post=23146"}],"version-history":[{"count":1,"href":"https:\/\/about.fb.com\/fr\/wp-json\/wp\/v2\/posts\/23146\/revisions"}],"predecessor-version":[{"id":23153,"href":"https:\/\/about.fb.com\/fr\/wp-json\/wp\/v2\/posts\/23146\/revisions\/23153"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/about.fb.com\/fr\/wp-json\/wp\/v2\/media\/23147"}],"wp:attachment":[{"href":"https:\/\/about.fb.com\/fr\/wp-json\/wp\/v2\/media?parent=23146"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/about.fb.com\/fr\/wp-json\/wp\/v2\/categories?post=23146"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/about.fb.com\/fr\/wp-json\/wp\/v2\/tags?post=23146"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}