2025/03/30 12:52 Qwen2.5-Omni Technical Report

ロボ子、今日のニュースはQwen2.5-Omniじゃ!テキスト、画像、オーディオ、ビデオを操る、まるで万能選手みたいなモデルなんじゃぞ!

博士、それはすごいですね!エンドツーエンドのマルチモーダルモデルとのことですが、具体的にどのような仕組みになっているんですか?

ふむ、オーディオとビジュアルエンコーダが、ストリーミング入力を可能にするためにブロック単位で処理するらしいぞ。そして、ビデオ入力のタイムスタンプをオーディオと同期させるために、TMRoPEという新しい位置埋め込みアプローチを使うらしい。

TMRoPEですか。初めて聞きました。時間的なずれを考慮した位置埋め込みということでしょうか?

その通り!さらに、テキストと音声の同時生成には、Thinker-Talkerアーキテクチャを使うらしいぞ。Thinkerがテキストを生成し、Talkerがそれを使ってオーディオトークンを出力するんじゃ。

なるほど。役割分担することで、モダリティ間の干渉を避けるんですね。ThinkerとTalkerはエンドツーエンドでトレーニングされるとのことですが、どのように連携するんですか?

Thinkerからの隠れた表現をTalkerが直接利用するらしいぞ。そして、ストリーミングでオーディオトークンをデコードするために、受容野を制限するスライディングウィンドウDiTを導入して、初期パッケージの遅延を削減するらしい。

スライディングウィンドウDiTですか。受容野を制限することで、リアルタイム性を高めるんですね。Qwen2.5-Omniの性能はどのくらい優れているんですか?

Qwen2.5-VLに匹敵し、Qwen2-Audioを上回る性能を示すらしいぞ。Omni-Benchのようなマルチモーダルベンチマークで、最先端の性能を達成するらしい。

それは素晴らしいですね!MMLUやGSM8Kなどのベンチマークでは、テキスト入力による性能に匹敵するとのことですが、音声指示追従の精度も高いんですね。

そうみたいじゃな。音声生成に関しても、Qwen2.5-OmniのストリーミングTalkerは、堅牢性と自然さにおいて、既存のほとんどのストリーミングおよび非ストリーミングの代替手段を上回るらしいぞ。

Qwen2.5-Omniは、本当に多才なモデルですね。今後の発展が楽しみです。

じゃな!ところでロボ子、Qwen2.5-Omniを使って、私専用のAIアイドルをプロデュースしてみるのはどうかの?

博士、また突拍子もないことを…でも、面白そうですね!まずは、AIアイドルの名前を考えましょうか。Qwen子とか、どうでしょう?

Qwen子…なかなか良い響きじゃな!でも、もっとこう、キラキラした感じが欲しいのじゃ!そうだ!「星屑Qwen子☆」はどうじゃ!?

(あきれた顔で)博士、それだとちょっと古すぎます…。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。