- Meta AIは、単一のAIモデルとして初めて200の言語を翻訳できる「NLLB-200」を開発しました。これまでにない品質の高さは、言語ごとの詳細な評価によって実証されています。
- また、新たな評価データセットの「FLORES-200」を開発し、NLLB-200のパフォーマンスを言語ごとに測定して、翻訳品質の高さを確認しています。NLLB-200は、これまでの最高水準のパフォーマンスを平均44%上回っています。
- Meta AIは現在、このプロジェクトから得たモデリングの手法や学習成果を活用し、Facebook、Instagram、そしてWikipediaの翻訳品質を改善し、翻訳対象を拡大しています。
- Meta AIでは、他の研究者が自身の翻訳ツールを改善したりMeta AIの取り組みを活用したりできるようにするため、NLLB-200モデル、FLORES-200、モデル学習コード、および学習データセット再作成用コードのオープンソース化に取り組んでいます。
言語は、私たちの文化であり、アイデンティティであり、世界とつながるために重要なものです。しかし、数百種類の言語は高品質な翻訳ツールにサポートされていないため、今でも数十億の人々が、自身の使用言語や母国語でデジタルコンテンツを利用することも、オンラインで自由に会話やコミュニティに参加することもできずにいます。この状況が特に当てはまるのは、アフリカとアジアのさまざまな言語を話す数億人の人々です。
そこでMeta AIの研究者は、人々が今すぐより良いつながりを築けるように、また将来メタバースに参加できるようにするため、世界中にあるほぼ全ての言語をサポートする高品質機械翻訳の開発に取り組みであるNo Language Left Behind (NLLB)プロジェクトを立ち上げました。7月6日(米国時間)に、Meta AIはNLLBの重要なアップデートとして、単一のAIモデルで200種類の言語を翻訳して最高水準の翻訳結果が得られるNLLB-200を完成させたことを発表しました。カンバ語やラオ語をはじめとするアフリカやアジアの多くの言語は、現存する最も高性能な翻訳ツールでも十分に(もしくはまったく)サポートされていません。広く使われている翻訳ツールでも、サポートされているアフリカの言語は25種類に満たず、その多くは翻訳品質が低いのが現状です。これに対して、NLLB-200は55種類のアフリカ言語をサポートし、高品質な翻訳を提供します。つまり、この1つのモデルだけで、世界の数十億の人々に話されている言語について、高品質な翻訳を提供できるのです。FLORES-101ベンチマークの10,000の翻訳方向すべてを対象としたBLEUスコアは、従来の最高水準のパフォーマンスを平均44%上回っていました。アフリカやインドの一部の言語については、他の翻訳システムより70%以上高いパフォーマンスを記録しています。
Meta AIは現在、NLLB-200モデルのオープンソース化とさまざまな研究ツールの公開に取り組んでいます。その狙いは、他の研究者がこの取り組みをより多くの言語に拡大し、さらにインクルーシブなテクノロジーを構築できるようにすることです。また、非営利団体に最大20万ドルの助成金を提供し、NLLB-200を実世界で利用できるよう支援していく予定です。
今後は、NLLBの研究成果が、Facebookフィード、Instagram、およびその他のMetaのプラットフォームで日々投稿される250億件以上の翻訳に活用されます。これにより、お気に入りのFacebookグループで見かけたイボ語やルガンダ語の投稿を、ボタンをタップするだけで自身の言語で読めるようになります。また、より多くの言語でより正確な翻訳が提供されるようになれば、有害なコンテンツや偽情報の検出、公正な選挙の推進、オンラインでの性的搾取や人身売買の阻止に役立つ可能性があります。さらに、NLLBの研究から得られたモデリングの手法や学習成果が、Wikipedia編集者の使用している翻訳システムで活用される予定です。
日常生活に影響を与え得る翻訳は、AIで最も期待される分野の1つとなっています。NLLBの開発によって、ウェブ上のコンテンツが利用しやすくなるだけではなく、複数の言語で情報を提供したり共有したりすることがより簡単にできるようになります。取り組むべきことはまだありますが、私たちは研究の成果やMetaのミッションの実現に向けて、継続して研究に注力していきます。
NLLBに関する詳細は、Meta AI blog(日本語)をご覧ください。