Metaは、単一のAIモデルで200種類の言語を翻訳できるNLLB-200を開発したと発表した。

Meta AIでは、他の研究者が自身の翻訳ツールを改善したりMeta AIの取り組みを活用したりできるようにするため、NLLB-200モデル、FLORES-200、モデル学習コード、および学習データセット再作成用コードのオープンソース化に取り組んでいるとのことだ。

200種類の言語を翻訳するAIモデル「NLLB-200」を開発
200種類の言語を翻訳するAIモデル「NLLB-200」

カンバ語やラオ語をはじめとするアフリカやアジアの多くの言語は、現存する最も高性能な翻訳ツールでも十分に(もしくはまったく)サポートされていないという。広く使われている翻訳ツールでも、サポートされているアフリカの言語は25種類に満たず、その多くは翻訳品質が低いのが現状である。

これに対して、NLLB-200は55種類のアフリカ言語をサポートし、高品質な翻訳を提供する。

FLORES-101ベンチマークの10,000の翻訳方向すべてを対象としたBLEUスコアは、従来の最高水準のパフォーマンスを平均44%上回っており、アフリカやインドの一部の言語については、他の翻訳システムより70%以上高いパフォーマンスを記録しているとのことだ。

Meta AIは現在、NLLB-200モデルのオープンソース化とさまざまな研究ツールの公開に取り組んでいる。

その狙いは、他の研究者がこの取り組みをより多くの言語に拡大し、さらにインクルーシブなテクノロジーを構築できるようにすることとし、また、非営利団体に最大20万ドルの助成金を提供し、NLLB-200を実世界で利用できるよう支援していく予定としている。

今後は、NLLBの研究成果が、Facebookフィード、Instagram、およびその他のMetaのプラットフォームで日々投稿される250億件以上の翻訳に活用されるという。これにより、お気に入りのFacebookグループで見かけたイボ語やルガンダ語の投稿を、ボタンをタップするだけで自身の言語で読めるようになるとのことだ。

また、より多くの言語でより正確な翻訳が提供されるようになれば、有害なコンテンツや偽情報の検出、公正な選挙の推進、オンラインでの性的搾取や人身売買の阻止に役立つ可能性がある。

さらに、NLLBの研究から得られたモデリングの手法や学習成果が、Wikipedia編集者の使用している翻訳システムで活用される予定としている。