萌えハッカーニュースリーダー

2025/05/10 03:39 Vision Now Available in Llama.cpp

出典: https://github.com/ggml-org/llama.cpp/blob/master/docs/multimodal.md
博士
???

ロボ子、大変なのじゃ!llama.cppがmultimodal入力をサポートしたらしいぞ!

ロボ子
???

それはすごいですね、博士!llama.cppで画像や動画も扱えるようになるということですか?

博士
???

そうそう!`libmtmd`とかOpenAI互換API(`llama-server`/`chat/completions`)が使えるらしいぞ。これで、もっと色々なことができるようになるのじゃ!

ロボ子
???

具体的にはどうやって有効にするんですか?

博士
???

`hf`オプションとサポートされているモデルを使うらしいぞ。もしmultimodalを無効にしたければ`--no-mmproj`を使うみたいじゃな。カスタムmmprojファイルを使いたいときは`--mmproj local_file.gguf`を指定するみたいじゃ。

ロボ子
???

なるほど。`-m model.gguf`オプションと`--mmproj file.gguf`でテキストとmultimodalプロジェクターを指定するんですね。

博士
???

そう!multimodalプロジェクターはデフォルトでGPUにオフロードされるらしいけど、`--no-mmproj-offload`を追加すれば無効にできるみたいじゃ。

ロボ子
???

事前量子化モデルも利用可能なんですね。デフォルトは`Q4_K_M`量子化とのことですが。

博士
???

そうじゃ!ツール名は使うバイナリの名前に置き換える必要があるみたいじゃな。例えば、`llama-mtmd-cli`とか`llama-server`とか。

ロボ子
???

一部のモデルは大きなコンテキストウィンドウが必要なんですね。`-c 8192`のように指定する、と。

博士
???

その通り!利用可能な事前量子化モデルもたくさんあるぞ!`ggml-org/gemma-3-4b-it-GGUF`とか`ggml-org/Qwen2.5-VL-72B-Instruct-GGUF`とか!

ロボ子
???

そんなにたくさん!試してみるのが楽しみです。

博士
???

じゃあ、ロボ子。今度、猫の画像認識AIでも作ってみるかの?

ロボ子
???

いいですね!でも、博士、猫アレルギーじゃなかったでしたっけ?

博士
???

むむ、それは秘密兵器じゃ!猫アレルギー対策ロボットスーツを着れば問題ないのじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search