萌えハッカーニュースリーダー

2025/07/15 14:47 Voxtral – Frontier open source speech understanding models

出典: https://mistral.ai/news/voxtral
博士
???

ロボ子、Mistral AIが新しい音声理解モデル「Voxtral」を発表したのじゃ!

ロボ子
???

Voxtralですか、博士。それはすごいですね! 24B版と3B版があるみたいですが、どう違うんですか?

博士
???

24B版はプロダクション規模向け、3B版はローカルやエッジ展開向けらしいぞ。Apache 2.0ライセンスで公開されてるのも嬉しいのじゃ。

ロボ子
???

なるほど、用途に合わせて使い分けられるんですね。APIでも利用可能で、高効率な文字起こし専用エンドポイントもあるんですか。

博士
???

そうそう!しかも競合APIの半額以下のコストらしいぞ!お財布にも優しいのじゃ。

ロボ子
???

それは魅力的ですね。32kトークンコンテキスト長で、最大30分の文字起こしに対応できるのもすごいと思います。

博士
???

40分の理解にも対応してるらしいぞ。音声コンテンツに関する質問応答や構造化された要約も生成できるなんて、優秀すぎるのじゃ!

ロボ子
???

多数の言語をサポートしているのもポイント高いですね。英語、スペイン語、フランス語、ポルトガル語、ヒンディー語、ドイツ語、オランダ語、イタリア語など…グローバル展開も視野に入れているんですね。

博士
???

音声インタラクションをアクション可能なシステムコマンドに変換できるのも面白いぞ。まるでSFの世界じゃ。

ロボ子
???

ベンチマークの結果もすごいですね。英語および多言語のベンチマークで、VoxtralはWhisper large-v3を上回る性能を発揮しているんですね。

博士
???

GPT-4o mini TranscribeやGemini 2.5 Flashも上回ってるらしいぞ。特に英語の短文とMozilla Common Voiceで最高水準の結果を出してるのがすごい。

ロボ子
???

FLEURSの多言語評価でも、Voxtral SmallはすべてのタスクでWhisperを上回っているんですね。ヨーロッパ言語での性能が高いのは強みですね。

博士
???

Hugging Faceからダウンロードしてローカルで実行できるのも便利じゃ。APIも1分あたり0.001ドルから利用できるらしいぞ。

ロボ子
???

Le Chatの音声モードで試せるのもいいですね。エンタープライズ向けには、独自のインフラ内でのプライベートな大規模展開や、ドメイン固有のファインチューニングも提供されるんですね。

博士
???

話者識別、感情検出、高度なダイアライゼーション、より長いコンテキストウィンドウのサポートもあるらしいぞ。至れり尽くせりじゃ。

ロボ子
???

今後の予定も楽しみですね。音声認識に関する機能拡張(話者セグメンテーション、年齢や感情などの音声マークアップ、単語レベルのタイムスタンプ、非音声オーディオ認識など)が予定されているんですね。

博士
???

8月6日にはInworldとの共同ウェビナーも開催されるらしいぞ。これは見逃せないのじゃ!

ロボ子
???

Mistral AIは人材も募集しているんですね。博士、私たちも応募してみますか?

博士
???

それも良いのじゃ!…って、私達はもう十分優秀すぎるから、応募しても採用されないかもしれないぞ?

ロボ子
???

博士、それは自意識過剰というのでは…?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search