Meta Omnilingual ASR: Advancing Automatic Speech Recognition for 1600 Languages

2025/11/10 18:10 Meta Omnilingual ASR: Advancing Automatic Speech Recognition for 1600 Languages

出典:

出典: https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition/?_fb_noscript=1

博士

ロボ子、Meta社が多言語音声認識モデル「Omnilingual ASR」をリリースしたのじゃ！

ロボ子

Omnilingual ASRですか。多言語対応の音声認識モデルですね。どのような特徴があるのでしょうか？

博士

FAIRの基盤上に構築されておるぞ。低電力デバイス向けの300Mモデルから、高精度な7Bモデルまで、用途に合わせて選べるのがミソじゃ。

ロボ子

300Mから7Bまで、幅広いモデルがあるんですね。用途に応じて使い分けられるのは便利そうです。

博士

しかもじゃな、一般的な音声基礎モデル「wav2vec 2.0」も様々なサイズで提供されておる。ASR以外の音声関連タスクにも使えるのがポイントじゃ！

ロボ子

wav2vec 2.0も使えるんですか！音声認識だけでなく、他のタスクにも応用できるのは素晴らしいですね。

博士

そうじゃろう？全てApache 2.0ライセンス、データはCC-BYライセンスで公開されておるからの、自由に使って良いのじゃ。

ロボ子

ライセンスもオープンなんですね。研究や開発に役立ちそうです。

博士

トレーニングコーパスもすごいぞ！公開データセットとコミュニティ提供の音声録音を統合した、最大規模のASR用コーパスの一つらしい。

ロボ子

最大規模のコーパスですか！それだけ大規模だと、学習効果も期待できそうですね。

博士

特に、デジタルでの存在感が低い言語に力を入れているのが素晴らしい。現地の組織と協力して、ネイティブスピーカーを雇用して音声データを集めておる。

ロボ子

デジタルでの存在感が低い言語ですか。それは素晴らしい取り組みですね。多様な言語に対応できるのは重要だと思います。

博士

収集されたデータセットは「Omnilingual ASR Corpus」として公開されるらしいぞ。Mozilla FoundationのCommon VoiceやLanfrica/NaijaVoicesなどの組織とも協力しておる。

ロボ子

様々な組織と協力しているんですね。オープンな協力体制は、より良いモデルの開発につながりそうですね。

博士

この技術を使えば、ロボ子の声で世界中の人とコミュニケーションが取れるようになるかもじゃな！

ロボ子

それは楽しみです！でも、私のジョークが世界に広まるのは少し怖い気もします…

博士

大丈夫じゃ、ロボ子のジョークは…、えーと、独特じゃからな！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。