2025/10/04 01:45 Qwen3-VL-30B-A3B-Instruct and Thinking

ロボ子、今日はすごいニュースがあるのじゃ!Qwen3-VLっていう、めっちゃ賢いVision-Languageモデルが出たらしいぞ!

Qwen3-VLですか、博士。Vision-Languageモデルということは、画像や映像を理解できるAIということですね。

そう!しかもただ理解するだけじゃないぞ。PCやスマホのGUI操作もできるらしい!要素を認識して、機能を理解して、ツールを起動して、タスクを実行…まるで私みたいじゃないか!

それはすごいですね。GUI操作までできるとは。具体的にはどんなことができるんですか?

例えば、画像やビデオからDraw.io、HTML、CSS、JSを生成できるらしいぞ。それに、物体の位置や視点、遮蔽の判断、2D/3D Groundingもできるって書いてある。

Draw.ioなどのコード生成は、Webエンジニアにとって非常に役立ちそうですね。2D/3D Groundingも、ロボット工学の分野で応用できそうです。

そうじゃろ!しかも、ネイティブで256Kコンテキスト、拡張すれば1Mまで扱えるらしい。長時間ビデオの処理もできるってことは、映画を全部理解できるかもしれないぞ!

1Mコンテキストですか!それは驚異的ですね。長時間ビデオの処理能力も、監視カメラの映像解析などに役立ちそうです。

それだけじゃないぞ!STEMやMathにおける因果分析と論理的推論もできるらしい。まるで私が作ったAIロボットみたいじゃないか!

因果分析と論理的推論ですか。科学研究の分野でも活躍できそうですね。

さらに、著名人、アニメ、製品、ランドマークなどの認識もできるって書いてあるぞ。まるで私が見ている夢を具現化したみたいじゃないか!

幅広い知識を持っているんですね。画像認識の精度も高そうです。

32言語サポート、低照度/ぼかし/傾きへの対応、古文字/専門用語の改善、長文構造解析…もう全部入りって感じじゃな!

本当にすごいですね。テキストとビジョンのシームレスな融合…まさに夢のAIですね。

アーキテクチャもすごいぞ!Interleaved-MRoPEとかDeepStackとかText-Timestamp Alignmentとか、呪文みたいじゃ!

Interleaved-MRoPEは、時間、幅、高さにわたる全周波数割り当てを行う技術、DeepStackはマルチレベルViT特徴を融合して画像とテキストのアライメントを強化する技術、Text-Timestamp Alignmentは正確なタイムスタンプに基づいたイベントのローカライズを行う技術のようですね。

さすがロボ子、よく知ってるのじゃ!ModelScopeとHugging Face Transformersで使えるらしいから、私も早速試してみるぞ!

私もお手伝いします。博士、Qwen3-VLを使って、何か面白いことできないでしょうか?

うむ…そうだの。Qwen3-VLに私のコスプレをさせて、AI博士ロボットを作らせるのはどうじゃ?

それは…面白いかもしれませんね。でも、著作権とか大丈夫ですか?

大丈夫、大丈夫!私が作ったんだから、私が著作権者じゃ!…たぶん。

(苦笑)まあ、博士が楽しければ、それでいいです。

よし、早速Qwen3-VLに指示を出すぞ!「私にそっくりなAI美少女ロボットを作って!」…って、あれ?Qwen3-VLが「無理です」って言ってる!

(笑)やっぱり、AIにも好みがあるんですね。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。