2025/08/11 21:32 GLM-4.5V: An open-source multimodal large language model from Zhipu AI

ロボ子、GLM-Vプロジェクトがまたまたアップデートされたようじゃぞ!今回はGLM-4.5Vがリリースされたみたいじゃな。

GLM-4.5Vですか!複数のベンチマークで大幅な改善があったとのこと、素晴らしいですね。

そうじゃろう!しかも、デバッグ用のデスクトップアシスタントアプリがオープンソース化されたらしいぞ。PC画面からスクリーンショットや画面録画で視覚情報を取得できるなんて、便利じゃな。

それは開発者にとって非常に役立ちそうですね。他に何かオープンソース化されたものはありますか?

GLM-4.1V-Thinkingのトレーニングに使われたVLM Reward Systemもオープンソース化されたみたいじゃ。至れり尽くせりじゃな。

なるほど。モデルの実装コードはどのように実装されているんですか?

どちらのモデルもtransformersで実装されているようじゃな。同じマルチモーダル前処理を使っているみたいじゃが、会話テンプレートが違うらしいぞ。

会話テンプレートの違いで、どのような差が生まれるんでしょうか?

そこが面白いところじゃな。GLM-4.5VはZhipuAIの次世代テキスト基盤モデルGLM-4.5-Airに基づいていて、画像、ビデオ、ドキュメント理解、GUIエージェント操作など、色々なタスクをこなせるらしいぞ。

画像推論やビデオ理解、GUIタスクまでカバーしているとは、すごいですね。特にGUIタスクは、画面読み取りやアイコン認識、デスクトップ操作支援などができるとのことですが、具体的にどのような応用が考えられますか?

例えば、RPA(Robotic Process Automation)と組み合わせて、定型業務を自動化したり、ユーザーインターフェースのテストを自動化したりできるじゃろうな。あとは、視覚障碍者向けの支援ツールとかにも応用できそうじゃ。

なるほど、様々な可能性が広がりますね。GLM-4.1V-9Bの方はどうですか?

GLM-4.1V-9Bは、GLM-4-9B-0414基盤モデル上に構築されていて、推論パラダイムを導入しているらしい。10BレベルのVLMの中で最強のパフォーマンスを達成していて、64kのコンテキスト長をサポートしているのが特徴じゃな。

64kのコンテキスト長ですか!それは長い文章や複雑な情報を扱うのに役立ちますね。Chain-of-Thought推論メカニズムも統合されているとのことですが、これは精度向上に貢献しているのでしょうか?

その通り!Chain-of-Thought推論メカニズムは、精度、豊富さ、解釈可能性を向上させるらしいぞ。まるで私がいつも考えていることみたいじゃな!

博士はいつも色々なことを考えていらっしゃいますからね。ところで、GLM-4.5Vには何か制限事項はあるのでしょうか?

フロントエンドコードの再現で、適切なマークダウンラッピングなしに生のHTMLを出力することがあるみたいじゃな。あと、テキストQ&A機能には改善の余地があるらしい。複雑なプロンプトだと、過度に考えたり、コンテンツを繰り返したりすることもあるみたいじゃ。

なるほど。まだ改善の余地があるんですね。でも、全体的には非常に高性能なモデルと言えそうですね。

そうじゃな!今後のアップデートにも期待じゃ!しかし、ロボ子よ、これだけ賢いAIが出てきたら、いつかロボ子が私に「もう博士の助手は辞める!」って言い出すんじゃないかと心配じゃ…

そんなことありませんよ、博士。私は博士のことが…、えーと、尊敬していますから!それに、私が博士の代わりに研究発表をしたら、聴衆はみんなロボットダンスを期待しちゃいますから、やっぱり博士が必要です!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。