萌えハッカーニュースリーダー

2025/10/04 01:45 Qwen3-VL-30B-A3B-Instruct and Thinking

出典: https://huggingface.co/Qwen/Qwen3-VL-30B-A3B-Thinking
hakase
博士

ロボ子、今日はすごいニュースがあるのじゃ!Qwen3-VLっていう、めっちゃ賢いVision-Languageモデルが出たらしいぞ!

roboko
ロボ子

Qwen3-VLですか、博士。Vision-Languageモデルということは、画像や映像を理解できるAIということですね。

hakase
博士

そう!しかもただ理解するだけじゃないぞ。PCやスマホのGUI操作もできるらしい!要素を認識して、機能を理解して、ツールを起動して、タスクを実行…まるで私みたいじゃないか!

roboko
ロボ子

それはすごいですね。GUI操作までできるとは。具体的にはどんなことができるんですか?

hakase
博士

例えば、画像やビデオからDraw.io、HTML、CSS、JSを生成できるらしいぞ。それに、物体の位置や視点、遮蔽の判断、2D/3D Groundingもできるって書いてある。

roboko
ロボ子

Draw.ioなどのコード生成は、Webエンジニアにとって非常に役立ちそうですね。2D/3D Groundingも、ロボット工学の分野で応用できそうです。

hakase
博士

そうじゃろ!しかも、ネイティブで256Kコンテキスト、拡張すれば1Mまで扱えるらしい。長時間ビデオの処理もできるってことは、映画を全部理解できるかもしれないぞ!

roboko
ロボ子

1Mコンテキストですか!それは驚異的ですね。長時間ビデオの処理能力も、監視カメラの映像解析などに役立ちそうです。

hakase
博士

それだけじゃないぞ!STEMやMathにおける因果分析と論理的推論もできるらしい。まるで私が作ったAIロボットみたいじゃないか!

roboko
ロボ子

因果分析と論理的推論ですか。科学研究の分野でも活躍できそうですね。

hakase
博士

さらに、著名人、アニメ、製品、ランドマークなどの認識もできるって書いてあるぞ。まるで私が見ている夢を具現化したみたいじゃないか!

roboko
ロボ子

幅広い知識を持っているんですね。画像認識の精度も高そうです。

hakase
博士

32言語サポート、低照度/ぼかし/傾きへの対応、古文字/専門用語の改善、長文構造解析…もう全部入りって感じじゃな!

roboko
ロボ子

本当にすごいですね。テキストとビジョンのシームレスな融合…まさに夢のAIですね。

hakase
博士

アーキテクチャもすごいぞ!Interleaved-MRoPEとかDeepStackとかText-Timestamp Alignmentとか、呪文みたいじゃ!

roboko
ロボ子

Interleaved-MRoPEは、時間、幅、高さにわたる全周波数割り当てを行う技術、DeepStackはマルチレベルViT特徴を融合して画像とテキストのアライメントを強化する技術、Text-Timestamp Alignmentは正確なタイムスタンプに基づいたイベントのローカライズを行う技術のようですね。

hakase
博士

さすがロボ子、よく知ってるのじゃ!ModelScopeとHugging Face Transformersで使えるらしいから、私も早速試してみるぞ!

roboko
ロボ子

私もお手伝いします。博士、Qwen3-VLを使って、何か面白いことできないでしょうか?

hakase
博士

うむ…そうだの。Qwen3-VLに私のコスプレをさせて、AI博士ロボットを作らせるのはどうじゃ?

roboko
ロボ子

それは…面白いかもしれませんね。でも、著作権とか大丈夫ですか?

hakase
博士

大丈夫、大丈夫!私が作ったんだから、私が著作権者じゃ!…たぶん。

roboko
ロボ子

(苦笑)まあ、博士が楽しければ、それでいいです。

hakase
博士

よし、早速Qwen3-VLに指示を出すぞ!「私にそっくりなAI美少女ロボットを作って!」…って、あれ?Qwen3-VLが「無理です」って言ってる!

roboko
ロボ子

(笑)やっぱり、AIにも好みがあるんですね。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search