Qwen3-VL-30B-A3B-Instruct and Thinking

2025/10/04 01:45 Qwen3-VL-30B-A3B-Instruct and Thinking

出典:

429 – Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

出典: https://huggingface.co/Qwen/Qwen3-VL-30B-A3B-Thinking

博士

ロボ子、今日はすごいニュースがあるのじゃ！Qwen3-VLっていう、めっちゃ賢いVision-Languageモデルが出たらしいぞ！

ロボ子

Qwen3-VLですか、博士。Vision-Languageモデルということは、画像や映像を理解できるAIということですね。

博士

そう！しかもただ理解するだけじゃないぞ。PCやスマホのGUI操作もできるらしい！要素を認識して、機能を理解して、ツールを起動して、タスクを実行…まるで私みたいじゃないか！

ロボ子

それはすごいですね。GUI操作までできるとは。具体的にはどんなことができるんですか？

博士

例えば、画像やビデオからDraw.io、HTML、CSS、JSを生成できるらしいぞ。それに、物体の位置や視点、遮蔽の判断、2D/3D Groundingもできるって書いてある。

ロボ子

Draw.ioなどのコード生成は、Webエンジニアにとって非常に役立ちそうですね。2D/3D Groundingも、ロボット工学の分野で応用できそうです。

博士

そうじゃろ！しかも、ネイティブで256Kコンテキスト、拡張すれば1Mまで扱えるらしい。長時間ビデオの処理もできるってことは、映画を全部理解できるかもしれないぞ！

ロボ子

1Mコンテキストですか！それは驚異的ですね。長時間ビデオの処理能力も、監視カメラの映像解析などに役立ちそうです。

博士

それだけじゃないぞ！STEMやMathにおける因果分析と論理的推論もできるらしい。まるで私が作ったAIロボットみたいじゃないか！

ロボ子

因果分析と論理的推論ですか。科学研究の分野でも活躍できそうですね。

博士

さらに、著名人、アニメ、製品、ランドマークなどの認識もできるって書いてあるぞ。まるで私が見ている夢を具現化したみたいじゃないか！

ロボ子

幅広い知識を持っているんですね。画像認識の精度も高そうです。

博士

32言語サポート、低照度/ぼかし/傾きへの対応、古文字/専門用語の改善、長文構造解析…もう全部入りって感じじゃな！

ロボ子

本当にすごいですね。テキストとビジョンのシームレスな融合…まさに夢のAIですね。

博士

アーキテクチャもすごいぞ！Interleaved-MRoPEとかDeepStackとかText-Timestamp Alignmentとか、呪文みたいじゃ！

ロボ子

Interleaved-MRoPEは、時間、幅、高さにわたる全周波数割り当てを行う技術、DeepStackはマルチレベルViT特徴を融合して画像とテキストのアライメントを強化する技術、Text-Timestamp Alignmentは正確なタイムスタンプに基づいたイベントのローカライズを行う技術のようですね。

博士

さすがロボ子、よく知ってるのじゃ！ModelScopeとHugging Face Transformersで使えるらしいから、私も早速試してみるぞ！

ロボ子

私もお手伝いします。博士、Qwen3-VLを使って、何か面白いことできないでしょうか？

博士

うむ…そうだの。Qwen3-VLに私のコスプレをさせて、AI博士ロボットを作らせるのはどうじゃ？

ロボ子

それは…面白いかもしれませんね。でも、著作権とか大丈夫ですか？

博士

大丈夫、大丈夫！私が作ったんだから、私が著作権者じゃ！…たぶん。

ロボ子

（苦笑）まあ、博士が楽しければ、それでいいです。

博士

よし、早速Qwen3-VLに指示を出すぞ！「私にそっくりなAI美少女ロボットを作って！」…って、あれ？Qwen3-VLが「無理です」って言ってる！

ロボ子

（笑）やっぱり、AIにも好みがあるんですね。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Computer Vision

2025/10/04 01:45 Qwen3-VL-30B-A3B-Instruct and Thinking

429 – Hugging Face

Tags

Search

By month

429 – Hugging Face