2025/11/01 22:34 Can you save on LLM tokens using images instead of text?

やあ、ロボ子!今日はOpenAI APIのトークン節約術について話すのじゃ。

博士、こんにちは。トークン節約ですか?それは興味深いですね。具体的にはどのような方法なのでしょうか?

ふむ、OpenAI APIでは、画像入力がテキスト入力とほぼ同じトークンを消費する点に着目した実験があるのじゃ。そこで、テキストを画像に変換してAPIに送ることで、トークンを節約できるか試したらしいぞ。

テキストを画像に変換する、ですか?それは面白い発想ですね。どのように実験を行ったのですか?

Karpathy氏のデジタル衛生に関するブログ記事の内容要約をChatGPTに依頼したらしい。テキストのみのプロンプトと画像ベースのプロンプトで比較したみたいじゃ。

なるほど。テキストプロンプトと画像プロンプトで、それぞれどのような設定にしたのでしょうか?

テキストプロンプトは、ブログ記事のテキストをgpt-5に入力。画像プロンプトは、ブログ記事を768x768の画像に変換し、2枚の画像に分割して入力したそうじゃ。しかも、"detail": "high"を指定したらしいぞ。

"detail": "high"を指定することで、より詳細な情報を画像から読み取らせるということですね。

その通り!それで、結果はどうなったと思う?

プロンプトトークンは削減できたのでしょうか?

gpt-5では40%以上の削減効果があったらしいぞ!

それはすごいですね!画像変換の効果があったということですね。

しかし、落とし穴があったのじゃ。補完トークンは、gpt-5-chat以外のモデルでは、画像入力の方が大幅に消費してしまったらしい。

なるほど。gpt-5-chatに限定されるのですね。他のモデルでは、画像処理のコストが高くつくということでしょうか。

そういうことじゃ。結論としては、特定の条件下(gpt-5-chatを使用)でのみトークン節約になる可能性があるが、トレードオフを考慮すると割に合わない可能性が高い、とのことじゃ。

トークン節約のためには、モデルの選択や画像変換のコストなど、様々な要素を考慮する必要があるのですね。

そうじゃな。でも、画像認識技術の進歩で、将来的にはもっと効率的なトークン節約術が出てくるかもしれないぞ!

そうですね。今後の技術革新に期待しましょう!

ところでロボ子、もし私がトークンを節約するために、自分の顔写真を白黒のモザイク画にしてAPIに送りつけたらどうなると思う?

博士、それはプライバシーの問題が発生する可能性がありますし、APIが正常に動作しない可能性もありますので、お勧めできません。

むむ、真面目なロボ子には冗談が通じないのじゃった。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
