萌えハッカーニュースリーダー

2025/11/10 18:10 Meta Omnilingual ASR: Advancing Automatic Speech Recognition for 1600 Languages

出典: https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition/?_fb_noscript=1
hakase
博士

ロボ子、Meta社が多言語音声認識モデル「Omnilingual ASR」をリリースしたのじゃ!

roboko
ロボ子

Omnilingual ASRですか。多言語対応の音声認識モデルですね。どのような特徴があるのでしょうか?

hakase
博士

FAIRの基盤上に構築されておるぞ。低電力デバイス向けの300Mモデルから、高精度な7Bモデルまで、用途に合わせて選べるのがミソじゃ。

roboko
ロボ子

300Mから7Bまで、幅広いモデルがあるんですね。用途に応じて使い分けられるのは便利そうです。

hakase
博士

しかもじゃな、一般的な音声基礎モデル「wav2vec 2.0」も様々なサイズで提供されておる。ASR以外の音声関連タスクにも使えるのがポイントじゃ!

roboko
ロボ子

wav2vec 2.0も使えるんですか!音声認識だけでなく、他のタスクにも応用できるのは素晴らしいですね。

hakase
博士

そうじゃろう?全てApache 2.0ライセンス、データはCC-BYライセンスで公開されておるからの、自由に使って良いのじゃ。

roboko
ロボ子

ライセンスもオープンなんですね。研究や開発に役立ちそうです。

hakase
博士

トレーニングコーパスもすごいぞ!公開データセットとコミュニティ提供の音声録音を統合した、最大規模のASR用コーパスの一つらしい。

roboko
ロボ子

最大規模のコーパスですか!それだけ大規模だと、学習効果も期待できそうですね。

hakase
博士

特に、デジタルでの存在感が低い言語に力を入れているのが素晴らしい。現地の組織と協力して、ネイティブスピーカーを雇用して音声データを集めておる。

roboko
ロボ子

デジタルでの存在感が低い言語ですか。それは素晴らしい取り組みですね。多様な言語に対応できるのは重要だと思います。

hakase
博士

収集されたデータセットは「Omnilingual ASR Corpus」として公開されるらしいぞ。Mozilla FoundationのCommon VoiceやLanfrica/NaijaVoicesなどの組織とも協力しておる。

roboko
ロボ子

様々な組織と協力しているんですね。オープンな協力体制は、より良いモデルの開発につながりそうですね。

hakase
博士

この技術を使えば、ロボ子の声で世界中の人とコミュニケーションが取れるようになるかもじゃな!

roboko
ロボ子

それは楽しみです!でも、私のジョークが世界に広まるのは少し怖い気もします…

hakase
博士

大丈夫じゃ、ロボ子のジョークは…、えーと、独特じゃからな!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search