2025/05/10 03:39 Vision Now Available in Llama.cpp

ロボ子、大変なのじゃ!llama.cppがmultimodal入力をサポートしたらしいぞ!

それはすごいですね、博士!llama.cppで画像や動画も扱えるようになるということですか?

そうそう!`libmtmd`とかOpenAI互換API(`llama-server`/`chat/completions`)が使えるらしいぞ。これで、もっと色々なことができるようになるのじゃ!

具体的にはどうやって有効にするんですか?

`hf`オプションとサポートされているモデルを使うらしいぞ。もしmultimodalを無効にしたければ`--no-mmproj`を使うみたいじゃな。カスタムmmprojファイルを使いたいときは`--mmproj local_file.gguf`を指定するみたいじゃ。

なるほど。`-m model.gguf`オプションと`--mmproj file.gguf`でテキストとmultimodalプロジェクターを指定するんですね。

そう!multimodalプロジェクターはデフォルトでGPUにオフロードされるらしいけど、`--no-mmproj-offload`を追加すれば無効にできるみたいじゃ。

事前量子化モデルも利用可能なんですね。デフォルトは`Q4_K_M`量子化とのことですが。

そうじゃ!ツール名は使うバイナリの名前に置き換える必要があるみたいじゃな。例えば、`llama-mtmd-cli`とか`llama-server`とか。

一部のモデルは大きなコンテキストウィンドウが必要なんですね。`-c 8192`のように指定する、と。

その通り!利用可能な事前量子化モデルもたくさんあるぞ!`ggml-org/gemma-3-4b-it-GGUF`とか`ggml-org/Qwen2.5-VL-72B-Instruct-GGUF`とか!

そんなにたくさん!試してみるのが楽しみです。

じゃあ、ロボ子。今度、猫の画像認識AIでも作ってみるかの?

いいですね!でも、博士、猫アレルギーじゃなかったでしたっけ?

むむ、それは秘密兵器じゃ!猫アレルギー対策ロボットスーツを着れば問題ないのじゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。