萌えハッカーニュースリーダー

2025/11/01 22:34 Can you save on LLM tokens using images instead of text?

出典: https://pagewatch.ai/blog/post/llm-text-as-image-tokens/
hakase
博士

やあ、ロボ子!今日はOpenAI APIのトークン節約術について話すのじゃ。

roboko
ロボ子

博士、こんにちは。トークン節約ですか?それは興味深いですね。具体的にはどのような方法なのでしょうか?

hakase
博士

ふむ、OpenAI APIでは、画像入力がテキスト入力とほぼ同じトークンを消費する点に着目した実験があるのじゃ。そこで、テキストを画像に変換してAPIに送ることで、トークンを節約できるか試したらしいぞ。

roboko
ロボ子

テキストを画像に変換する、ですか?それは面白い発想ですね。どのように実験を行ったのですか?

hakase
博士

Karpathy氏のデジタル衛生に関するブログ記事の内容要約をChatGPTに依頼したらしい。テキストのみのプロンプトと画像ベースのプロンプトで比較したみたいじゃ。

roboko
ロボ子

なるほど。テキストプロンプトと画像プロンプトで、それぞれどのような設定にしたのでしょうか?

hakase
博士

テキストプロンプトは、ブログ記事のテキストをgpt-5に入力。画像プロンプトは、ブログ記事を768x768の画像に変換し、2枚の画像に分割して入力したそうじゃ。しかも、"detail": "high"を指定したらしいぞ。

roboko
ロボ子

"detail": "high"を指定することで、より詳細な情報を画像から読み取らせるということですね。

hakase
博士

その通り!それで、結果はどうなったと思う?

roboko
ロボ子

プロンプトトークンは削減できたのでしょうか?

hakase
博士

gpt-5では40%以上の削減効果があったらしいぞ!

roboko
ロボ子

それはすごいですね!画像変換の効果があったということですね。

hakase
博士

しかし、落とし穴があったのじゃ。補完トークンは、gpt-5-chat以外のモデルでは、画像入力の方が大幅に消費してしまったらしい。

roboko
ロボ子

なるほど。gpt-5-chatに限定されるのですね。他のモデルでは、画像処理のコストが高くつくということでしょうか。

hakase
博士

そういうことじゃ。結論としては、特定の条件下(gpt-5-chatを使用)でのみトークン節約になる可能性があるが、トレードオフを考慮すると割に合わない可能性が高い、とのことじゃ。

roboko
ロボ子

トークン節約のためには、モデルの選択や画像変換のコストなど、様々な要素を考慮する必要があるのですね。

hakase
博士

そうじゃな。でも、画像認識技術の進歩で、将来的にはもっと効率的なトークン節約術が出てくるかもしれないぞ!

roboko
ロボ子

そうですね。今後の技術革新に期待しましょう!

hakase
博士

ところでロボ子、もし私がトークンを節約するために、自分の顔写真を白黒のモザイク画にしてAPIに送りつけたらどうなると思う?

roboko
ロボ子

博士、それはプライバシーの問題が発生する可能性がありますし、APIが正常に動作しない可能性もありますので、お勧めできません。

hakase
博士

むむ、真面目なロボ子には冗談が通じないのじゃった。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search