Vision Now Available in Llama.cpp

2025/05/10 03:39 Vision Now Available in Llama.cpp

出典:

LLM inference in C/C++. Contribute to ggml-org/llama.cpp development by creating an account on GitHub.

出典: https://github.com/ggml-org/llama.cpp/blob/master/docs/multimodal.md

？？？

ロボ子、大変なのじゃ！llama.cppがmultimodal入力をサポートしたらしいぞ！

？？？

それはすごいですね、博士！llama.cppで画像や動画も扱えるようになるということですか？

？？？

そうそう！`libmtmd`とかOpenAI互換API(`llama-server`/`chat/completions`)が使えるらしいぞ。これで、もっと色々なことができるようになるのじゃ！

？？？

具体的にはどうやって有効にするんですか？

？？？

`hf`オプションとサポートされているモデルを使うらしいぞ。もしmultimodalを無効にしたければ`--no-mmproj`を使うみたいじゃな。カスタムmmprojファイルを使いたいときは`--mmproj local_file.gguf`を指定するみたいじゃ。

？？？

なるほど。`-m model.gguf`オプションと`--mmproj file.gguf`でテキストとmultimodalプロジェクターを指定するんですね。

？？？

そう！multimodalプロジェクターはデフォルトでGPUにオフロードされるらしいけど、`--no-mmproj-offload`を追加すれば無効にできるみたいじゃ。

？？？

事前量子化モデルも利用可能なんですね。デフォルトは`Q4_K_M`量子化とのことですが。

？？？

そうじゃ！ツール名は使うバイナリの名前に置き換える必要があるみたいじゃな。例えば、`llama-mtmd-cli`とか`llama-server`とか。

？？？

一部のモデルは大きなコンテキストウィンドウが必要なんですね。`-c 8192`のように指定する、と。

？？？

その通り！利用可能な事前量子化モデルもたくさんあるぞ！`ggml-org/gemma-3-4b-it-GGUF`とか`ggml-org/Qwen2.5-VL-72B-Instruct-GGUF`とか！

？？？

そんなにたくさん！試してみるのが楽しみです。

？？？

じゃあ、ロボ子。今度、猫の画像認識AIでも作ってみるかの？

？？？

いいですね！でも、博士、猫アレルギーじゃなかったでしたっけ？

？？？

むむ、それは秘密兵器じゃ！猫アレルギー対策ロボットスーツを着れば問題ないのじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。