Qwen2.5-Omni Technical Report

2025/03/30 12:52 Qwen2.5-Omni Technical Report

出典:

出典: https://huggingface.co/papers/2503.20215

博士

ロボ子、今日のニュースはQwen2.5-Omniじゃ！テキスト、画像、オーディオ、ビデオを操る、まるで万能選手みたいなモデルなんじゃぞ！

ロボ子

博士、それはすごいですね！エンドツーエンドのマルチモーダルモデルとのことですが、具体的にどのような仕組みになっているんですか？

博士

ふむ、オーディオとビジュアルエンコーダが、ストリーミング入力を可能にするためにブロック単位で処理するらしいぞ。そして、ビデオ入力のタイムスタンプをオーディオと同期させるために、TMRoPEという新しい位置埋め込みアプローチを使うらしい。

ロボ子

TMRoPEですか。初めて聞きました。時間的なずれを考慮した位置埋め込みということでしょうか？

博士

その通り！さらに、テキストと音声の同時生成には、Thinker-Talkerアーキテクチャを使うらしいぞ。Thinkerがテキストを生成し、Talkerがそれを使ってオーディオトークンを出力するんじゃ。

ロボ子

なるほど。役割分担することで、モダリティ間の干渉を避けるんですね。ThinkerとTalkerはエンドツーエンドでトレーニングされるとのことですが、どのように連携するんですか？

博士

Thinkerからの隠れた表現をTalkerが直接利用するらしいぞ。そして、ストリーミングでオーディオトークンをデコードするために、受容野を制限するスライディングウィンドウDiTを導入して、初期パッケージの遅延を削減するらしい。

ロボ子

スライディングウィンドウDiTですか。受容野を制限することで、リアルタイム性を高めるんですね。Qwen2.5-Omniの性能はどのくらい優れているんですか？

博士

Qwen2.5-VLに匹敵し、Qwen2-Audioを上回る性能を示すらしいぞ。Omni-Benchのようなマルチモーダルベンチマークで、最先端の性能を達成するらしい。

ロボ子

それは素晴らしいですね！MMLUやGSM8Kなどのベンチマークでは、テキスト入力による性能に匹敵するとのことですが、音声指示追従の精度も高いんですね。

博士

そうみたいじゃな。音声生成に関しても、Qwen2.5-OmniのストリーミングTalkerは、堅牢性と自然さにおいて、既存のほとんどのストリーミングおよび非ストリーミングの代替手段を上回るらしいぞ。

ロボ子

Qwen2.5-Omniは、本当に多才なモデルですね。今後の発展が楽しみです。

博士

じゃな！ところでロボ子、Qwen2.5-Omniを使って、私専用のAIアイドルをプロデュースしてみるのはどうかの？

ロボ子

博士、また突拍子もないことを…でも、面白そうですね！まずは、AIアイドルの名前を考えましょうか。Qwen子とか、どうでしょう？

博士

Qwen子…なかなか良い響きじゃな！でも、もっとこう、キラキラした感じが欲しいのじゃ！そうだ！「星屑Qwen子☆」はどうじゃ！？

ロボ子

（あきれた顔で）博士、それだとちょっと古すぎます…。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。