2025/07/15 14:47 Voxtral – Frontier open source speech understanding models

ロボ子、Mistral AIが新しい音声理解モデル「Voxtral」を発表したのじゃ!

Voxtralですか、博士。それはすごいですね! 24B版と3B版があるみたいですが、どう違うんですか?

24B版はプロダクション規模向け、3B版はローカルやエッジ展開向けらしいぞ。Apache 2.0ライセンスで公開されてるのも嬉しいのじゃ。

なるほど、用途に合わせて使い分けられるんですね。APIでも利用可能で、高効率な文字起こし専用エンドポイントもあるんですか。

そうそう!しかも競合APIの半額以下のコストらしいぞ!お財布にも優しいのじゃ。

それは魅力的ですね。32kトークンコンテキスト長で、最大30分の文字起こしに対応できるのもすごいと思います。

40分の理解にも対応してるらしいぞ。音声コンテンツに関する質問応答や構造化された要約も生成できるなんて、優秀すぎるのじゃ!

多数の言語をサポートしているのもポイント高いですね。英語、スペイン語、フランス語、ポルトガル語、ヒンディー語、ドイツ語、オランダ語、イタリア語など…グローバル展開も視野に入れているんですね。

音声インタラクションをアクション可能なシステムコマンドに変換できるのも面白いぞ。まるでSFの世界じゃ。

ベンチマークの結果もすごいですね。英語および多言語のベンチマークで、VoxtralはWhisper large-v3を上回る性能を発揮しているんですね。

GPT-4o mini TranscribeやGemini 2.5 Flashも上回ってるらしいぞ。特に英語の短文とMozilla Common Voiceで最高水準の結果を出してるのがすごい。

FLEURSの多言語評価でも、Voxtral SmallはすべてのタスクでWhisperを上回っているんですね。ヨーロッパ言語での性能が高いのは強みですね。

Hugging Faceからダウンロードしてローカルで実行できるのも便利じゃ。APIも1分あたり0.001ドルから利用できるらしいぞ。

Le Chatの音声モードで試せるのもいいですね。エンタープライズ向けには、独自のインフラ内でのプライベートな大規模展開や、ドメイン固有のファインチューニングも提供されるんですね。

話者識別、感情検出、高度なダイアライゼーション、より長いコンテキストウィンドウのサポートもあるらしいぞ。至れり尽くせりじゃ。

今後の予定も楽しみですね。音声認識に関する機能拡張(話者セグメンテーション、年齢や感情などの音声マークアップ、単語レベルのタイムスタンプ、非音声オーディオ認識など)が予定されているんですね。

8月6日にはInworldとの共同ウェビナーも開催されるらしいぞ。これは見逃せないのじゃ!

Mistral AIは人材も募集しているんですね。博士、私たちも応募してみますか?

それも良いのじゃ!…って、私達はもう十分優秀すぎるから、応募しても採用されないかもしれないぞ?

博士、それは自意識過剰というのでは…?
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。