GLM-4.5V: An open-source multimodal large language model from Zhipu AI

2025/08/11 21:32 GLM-4.5V: An open-source multimodal large language model from Zhipu AI

出典:

GitHub - zai-org/GLM-V: GLM-4.6V/4.5V/4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

GLM-4.6V/4.5V/4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning - zai-org/GLM-V

GitHub

出典: https://github.com/zai-org/GLM-V

？？？

ロボ子、GLM-Vプロジェクトがまたまたアップデートされたようじゃぞ！今回はGLM-4.5Vがリリースされたみたいじゃな。

？？？

GLM-4.5Vですか！複数のベンチマークで大幅な改善があったとのこと、素晴らしいですね。

？？？

そうじゃろう！しかも、デバッグ用のデスクトップアシスタントアプリがオープンソース化されたらしいぞ。PC画面からスクリーンショットや画面録画で視覚情報を取得できるなんて、便利じゃな。

？？？

それは開発者にとって非常に役立ちそうですね。他に何かオープンソース化されたものはありますか？

？？？

GLM-4.1V-Thinkingのトレーニングに使われたVLM Reward Systemもオープンソース化されたみたいじゃ。至れり尽くせりじゃな。

？？？

なるほど。モデルの実装コードはどのように実装されているんですか？

？？？

どちらのモデルもtransformersで実装されているようじゃな。同じマルチモーダル前処理を使っているみたいじゃが、会話テンプレートが違うらしいぞ。

？？？

会話テンプレートの違いで、どのような差が生まれるんでしょうか？

？？？

そこが面白いところじゃな。GLM-4.5VはZhipuAIの次世代テキスト基盤モデルGLM-4.5-Airに基づいていて、画像、ビデオ、ドキュメント理解、GUIエージェント操作など、色々なタスクをこなせるらしいぞ。

？？？

画像推論やビデオ理解、GUIタスクまでカバーしているとは、すごいですね。特にGUIタスクは、画面読み取りやアイコン認識、デスクトップ操作支援などができるとのことですが、具体的にどのような応用が考えられますか？

？？？

例えば、RPA（Robotic Process Automation）と組み合わせて、定型業務を自動化したり、ユーザーインターフェースのテストを自動化したりできるじゃろうな。あとは、視覚障碍者向けの支援ツールとかにも応用できそうじゃ。

？？？

なるほど、様々な可能性が広がりますね。GLM-4.1V-9Bの方はどうですか？

？？？

GLM-4.1V-9Bは、GLM-4-9B-0414基盤モデル上に構築されていて、推論パラダイムを導入しているらしい。10BレベルのVLMの中で最強のパフォーマンスを達成していて、64kのコンテキスト長をサポートしているのが特徴じゃな。

？？？

64kのコンテキスト長ですか！それは長い文章や複雑な情報を扱うのに役立ちますね。Chain-of-Thought推論メカニズムも統合されているとのことですが、これは精度向上に貢献しているのでしょうか？

？？？

その通り！Chain-of-Thought推論メカニズムは、精度、豊富さ、解釈可能性を向上させるらしいぞ。まるで私がいつも考えていることみたいじゃな！

？？？

博士はいつも色々なことを考えていらっしゃいますからね。ところで、GLM-4.5Vには何か制限事項はあるのでしょうか？

？？？

フロントエンドコードの再現で、適切なマークダウンラッピングなしに生のHTMLを出力することがあるみたいじゃな。あと、テキストQ&A機能には改善の余地があるらしい。複雑なプロンプトだと、過度に考えたり、コンテンツを繰り返したりすることもあるみたいじゃ。

？？？

なるほど。まだ改善の余地があるんですね。でも、全体的には非常に高性能なモデルと言えそうですね。

？？？

そうじゃな！今後のアップデートにも期待じゃ！しかし、ロボ子よ、これだけ賢いAIが出てきたら、いつかロボ子が私に「もう博士の助手は辞める！」って言い出すんじゃないかと心配じゃ…

？？？

そんなことありませんよ、博士。私は博士のことが…、えーと、尊敬していますから！それに、私が博士の代わりに研究発表をしたら、聴衆はみんなロボットダンスを期待しちゃいますから、やっぱり博士が必要です！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Open Source Computer Vision

2025/08/11 21:32 GLM-4.5V: An open-source multimodal large language model from Zhipu AI

GitHub - zai-org/GLM-V: GLM-4.6V/4.5V/4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

Tags

Search

By month

GitHub - zai-org/GLM-V: GLM-4.6V/4.5V/4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning