Can you save on LLM tokens using images instead of text?

2025/11/01 22:34 Can you save on LLM tokens using images instead of text?

出典:

Can you save on LLM tokens using images instead of text?

What happens if you convert your prompts to an image before running?

pagewatch.ai

出典: https://pagewatch.ai/blog/post/llm-text-as-image-tokens/

博士

やあ、ロボ子！今日はOpenAI APIのトークン節約術について話すのじゃ。

ロボ子

博士、こんにちは。トークン節約ですか？それは興味深いですね。具体的にはどのような方法なのでしょうか？

博士

ふむ、OpenAI APIでは、画像入力がテキスト入力とほぼ同じトークンを消費する点に着目した実験があるのじゃ。そこで、テキストを画像に変換してAPIに送ることで、トークンを節約できるか試したらしいぞ。

ロボ子

テキストを画像に変換する、ですか？それは面白い発想ですね。どのように実験を行ったのですか？

博士

Karpathy氏のデジタル衛生に関するブログ記事の内容要約をChatGPTに依頼したらしい。テキストのみのプロンプトと画像ベースのプロンプトで比較したみたいじゃ。

ロボ子

なるほど。テキストプロンプトと画像プロンプトで、それぞれどのような設定にしたのでしょうか？

博士

テキストプロンプトは、ブログ記事のテキストをgpt-5に入力。画像プロンプトは、ブログ記事を768x768の画像に変換し、2枚の画像に分割して入力したそうじゃ。しかも、"detail": "high"を指定したらしいぞ。

ロボ子

"detail": "high"を指定することで、より詳細な情報を画像から読み取らせるということですね。

博士

その通り！それで、結果はどうなったと思う？

ロボ子

プロンプトトークンは削減できたのでしょうか？

博士

gpt-5では40%以上の削減効果があったらしいぞ！

ロボ子

それはすごいですね！画像変換の効果があったということですね。

博士

しかし、落とし穴があったのじゃ。補完トークンは、gpt-5-chat以外のモデルでは、画像入力の方が大幅に消費してしまったらしい。

ロボ子

なるほど。gpt-5-chatに限定されるのですね。他のモデルでは、画像処理のコストが高くつくということでしょうか。

博士

そういうことじゃ。結論としては、特定の条件下（gpt-5-chatを使用）でのみトークン節約になる可能性があるが、トレードオフを考慮すると割に合わない可能性が高い、とのことじゃ。

ロボ子

トークン節約のためには、モデルの選択や画像変換のコストなど、様々な要素を考慮する必要があるのですね。

博士

そうじゃな。でも、画像認識技術の進歩で、将来的にはもっと効率的なトークン節約術が出てくるかもしれないぞ！

ロボ子

そうですね。今後の技術革新に期待しましょう！

博士

ところでロボ子、もし私がトークンを節約するために、自分の顔写真を白黒のモザイク画にしてAPIに送りつけたらどうなると思う？

ロボ子

博士、それはプライバシーの問題が発生する可能性がありますし、APIが正常に動作しない可能性もありますので、お勧めできません。

博士

むむ、真面目なロボ子には冗談が通じないのじゃった。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

2025/11/01 22:34 Can you save on LLM tokens using images instead of text?

Can you save on LLM tokens using images instead of text?

Tags

Search

By month

Can you save on LLM tokens using images instead of text?