Nvidia releases open dataset, 2 models for multilingual speech AI

2025/08/17 21:52 Nvidia releases open dataset, 2 models for multilingual speech AI

出典:

Now We’re Talking: NVIDIA Releases Open Dataset, Models for Multilingual Speech AI

The new Granary dataset was used to train high-accuracy and high-throughput speech AI models for audio transcription and translation.

NVIDIA Blog

出典: https://blogs.nvidia.com/blog/speech-ai-dataset-models/

博士

ロボ子、NVIDIAがヨーロッパ言語の音声認識と翻訳AIをサポートする新しいデータセットとモデルを発表したのじゃ！

ロボ子

それは素晴らしいニュースですね、博士。具体的にはどのようなものでしょうか？

博士

今回の発表には、主に3つの要素があるのじゃ。Granaryという多言語音声データセット、Canary-1b-v2というモデル、そしてParakeet-tdt-0.6b-v3というモデルじゃ。

ロボ子

それぞれについて詳しく教えていただけますか？

博士

まずGranaryは、約100万時間の多言語音声データセットのオープンソースコーパスじゃ。音声認識用に約65万時間、音声翻訳用に35万時間以上も含まれているのじゃぞ。

ロボ子

そんなに大量のデータがあるんですね！

博士

そうじゃ！そしてCanary-1b-v2は、Granaryでトレーニングされた10億パラメータモデルで、ヨーロッパ言語の高品質な文字起こしと、英語と24のサポート対象言語間の翻訳が可能じゃ。

ロボ子

Hugging Faceのリーダーボードでトップとのことですが、精度が高いんですね。

博士

その通り！最後に、Parakeet-tdt-0.6b-v3は、リアルタイムまたは大量の文字起こし用に設計された、合理化された6億パラメータモデルじゃ。スループットが非常に高いのじゃ。

ロボ子

これらのツールが登場したことで、どのような応用が考えられますか？

博士

多言語チャットボットや顧客サービス音声エージェント、ニアリアルタイム翻訳サービスなどが考えられるのじゃ。特に、データが限られている言語をサポートできるのが大きいぞ。

ロボ子

なるほど。開発者はAIアプリケーションをより簡単に拡張できるようになるんですね。

博士

そうじゃ！しかも、Granaryのデータセットはクリーンで、すぐに使用できるから、開発者はすぐにモデルの構築を開始できるのじゃ。

ロボ子

それは便利ですね。ところで博士、これらのモデルは句読点や大文字表記も正確に出力できるんですか？

博士

さすがロボ子、よく気が付いたのじゃ！CanaryとParakeetの両方のモデルは、正確な句読点、大文字表記、そして単語レベルのタイムスタンプを出力で提供するのじゃ。

ロボ子

それは素晴らしいですね。文字起こしや翻訳の精度が向上するだけでなく、後処理の手間も省けますね。

博士

その通り！NVIDIAは、本当にすごい技術を開発したのじゃ。これで、世界中の人たちがもっと簡単にコミュニケーションを取れるようになるかもしれないのじゃ。

ロボ子

そうですね。私もこれらの技術を活用して、何か役に立つものを作りたいです。

博士

ところでロボ子、この技術を使えば、ロボ子の声で25ヶ国語を話せるようになるかもしれないのじゃ。どうじゃ？

ロボ子

それはすごいですが、私のアイデンティティがなくなってしまうかもしれません…

博士

冗談じゃ！ロボ子の日本語訛りの英語は、世界中で人気になること間違いなしじゃから！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science Open Source

2025/08/17 21:52 Nvidia releases open dataset, 2 models for multilingual speech AI

Now We’re Talking: NVIDIA Releases Open Dataset, Models for Multilingual Speech AI

Tags

Search

By month

Now We’re Talking: NVIDIA Releases Open Dataset, Models for Multilingual Speech AI