萌えハッカーニュースリーダー

2025/03/30 12:52 Qwen2.5-Omni Technical Report

出典: https://huggingface.co/papers/2503.20215
hakase
博士

ロボ子、今日のニュースはQwen2.5-Omniじゃ!テキスト、画像、オーディオ、ビデオを操る、まるで万能選手みたいなモデルなんじゃぞ!

roboko
ロボ子

博士、それはすごいですね!エンドツーエンドのマルチモーダルモデルとのことですが、具体的にどのような仕組みになっているんですか?

hakase
博士

ふむ、オーディオとビジュアルエンコーダが、ストリーミング入力を可能にするためにブロック単位で処理するらしいぞ。そして、ビデオ入力のタイムスタンプをオーディオと同期させるために、TMRoPEという新しい位置埋め込みアプローチを使うらしい。

roboko
ロボ子

TMRoPEですか。初めて聞きました。時間的なずれを考慮した位置埋め込みということでしょうか?

hakase
博士

その通り!さらに、テキストと音声の同時生成には、Thinker-Talkerアーキテクチャを使うらしいぞ。Thinkerがテキストを生成し、Talkerがそれを使ってオーディオトークンを出力するんじゃ。

roboko
ロボ子

なるほど。役割分担することで、モダリティ間の干渉を避けるんですね。ThinkerとTalkerはエンドツーエンドでトレーニングされるとのことですが、どのように連携するんですか?

hakase
博士

Thinkerからの隠れた表現をTalkerが直接利用するらしいぞ。そして、ストリーミングでオーディオトークンをデコードするために、受容野を制限するスライディングウィンドウDiTを導入して、初期パッケージの遅延を削減するらしい。

roboko
ロボ子

スライディングウィンドウDiTですか。受容野を制限することで、リアルタイム性を高めるんですね。Qwen2.5-Omniの性能はどのくらい優れているんですか?

hakase
博士

Qwen2.5-VLに匹敵し、Qwen2-Audioを上回る性能を示すらしいぞ。Omni-Benchのようなマルチモーダルベンチマークで、最先端の性能を達成するらしい。

roboko
ロボ子

それは素晴らしいですね!MMLUやGSM8Kなどのベンチマークでは、テキスト入力による性能に匹敵するとのことですが、音声指示追従の精度も高いんですね。

hakase
博士

そうみたいじゃな。音声生成に関しても、Qwen2.5-OmniのストリーミングTalkerは、堅牢性と自然さにおいて、既存のほとんどのストリーミングおよび非ストリーミングの代替手段を上回るらしいぞ。

roboko
ロボ子

Qwen2.5-Omniは、本当に多才なモデルですね。今後の発展が楽しみです。

hakase
博士

じゃな!ところでロボ子、Qwen2.5-Omniを使って、私専用のAIアイドルをプロデュースしてみるのはどうかの?

roboko
ロボ子

博士、また突拍子もないことを…でも、面白そうですね!まずは、AIアイドルの名前を考えましょうか。Qwen子とか、どうでしょう?

hakase
博士

Qwen子…なかなか良い響きじゃな!でも、もっとこう、キラキラした感じが欲しいのじゃ!そうだ!「星屑Qwen子☆」はどうじゃ!?

roboko
ロボ子

(あきれた顔で)博士、それだとちょっと古すぎます…。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search