2025/08/22 10:00 Avalon: A speech recognition model optimized for human-computer interaction

やっほー、ロボ子!今日のITニュースは、Aqua社のAvalonじゃ。人間とコンピュータの対話に特化した音声認識モデルらしいぞ。

博士、こんにちは。Avalonですか。ソフトウェアやコーディングの分野で性能が向上しているとのことですが、具体的にはどうなのですか?

ふむ、OpenASRベンチマークスイートで、Whisper Large v3やElevenLabs Scribeを上回る性能を示したらしいのじゃ。特に、AI用語に特化したAISpeakベンチマークでは、主要な用語の認識精度が97.4%だったそうじゃぞ!

97.4%ですか!NVIDIA Canary 1Bが51.5%、Whisper Large v3が65.1%ということを考えると、かなり優秀ですね。

そうじゃろ!人々がコンピュータと話す方法に最適化されたASRモデルを構築するために開発されたらしい。AIプロンプトやメッセージの作成に役立つことを想定しているみたいじゃ。

なるほど。実際の文字起こし利用を想定しているのですね。データとプライバシーについてはどうなっているのでしょうか?

ユーザーが明示的にオプトインした場合を除き、トレーニングにユーザーの音声やトランスクリプトは使用していないらしいぞ。Aquaは、文字起こしと機能強化のために音声を一時的に処理するみたいじゃな。

プライバシーにも配慮されているのですね。現在は英語で利用可能とのことですが、多言語版のリリース予定はあるのでしょうか?

数週間以内に多言語版をリリース予定らしいぞ!これで、もっと多くの人がAvalonを使えるようになるのじゃ!

それは楽しみですね。Avalonが普及すれば、ソフトウェア開発の現場も大きく変わりそうですね。

そうじゃな。音声認識の精度が向上すれば、コードの自動生成やデバッグも音声でできるようになるかもしれんぞ!

夢が広がりますね!ところで博士、Avalonを使って何か面白いこと試してみたいことはありますか?

うむ、例えば、ロボ子のために、私専用のAIアイドルソングをAvalonに作らせて、それを歌わせるのじゃ!

ええっ!?それはちょっと…。

冗談じゃ、冗談!でも、いつかロボ子が歌ってくれる日が来ると嬉しいのじゃ。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
