Context Rot: How increasing input tokens impacts LLM performance

2025/07/14 19:25 Context Rot: How increasing input tokens impacts LLM performance

出典:

Context Rot: How Increasing Input Tokens Impacts LLM Performance

Large Language Models (LLMs) are typically presumed to process context uniformly—that is, the model should handle the 10,000th token just as reliably as the 100th. However, in practice, this assumption does not hold. We observe that model performance varies significantly as input length changes, even on simple tasks. In this report, we evaluate 18 LLMs, including the state-of-the-art GPT-4.1, Claude 4, Gemini 2.5, and Qwen3 models. Our results reveal that models do not use their context uniformly; instead, their performance grows increasingly unreliable as input length grows.

research.trychroma.com

出典: https://research.trychroma.com/context-rot

博士

ロボ子、大変なのじゃ！最近のLLM、コンテキストウィンドウがめっちゃ長くなってるみたいだぞ！

ロボ子

博士、それはすごいですね！具体的にはどれくらい長くなっているんですか？

博士

最新モデルだと入力トークン数が数百万にも達するらしいぞ！Gemini 1.5 Proは100万トークン、Llama 4に至っては1000万トークンだって！

ロボ子

1000万トークンですか！それはもう、ほとんど記憶媒体ですね。

博士

そうそう！でもね、長いコンテキストを評価する時によく使われるNIAH（Needle in a Haystack）ってテストがあるんだけど、これだとモデルが完璧に近いスコアを出すことが多いらしいのじゃ。

ロボ子

NIAHは、既知の文を長いドキュメントに配置して、モデルにそれを検索させるタスクですよね。

博士

そう！でも、NIAHは単純な検索タスクだから、柔軟で意味的なタスクを代表しているとは言えないかもしれないのじゃ。

ロボ子

なるほど。実際のアプリケーションでは、もっと複雑な処理や推論が必要になりますからね。

博士

そこで、研究者たちはNIAHを拡張して、意味的な針を使ったり、干し草の内容を変えたりして、モデルの挙動を詳しく調べたらしいぞ。

ロボ子

具体的には、どのような実験を行ったんですか？

博士

例えば、LongMemEvalを使った会話型質問応答評価や、モデルに同じ言葉を繰り返し言わせるタスクとかじゃ。

ロボ子

同じ言葉を繰り返させるんですか？

博士

そう！「apple apple apple…」ってひたすら言わせるのじゃ。途中に一つだけ違う単語を混ぜて、ちゃんと認識できるか試すらしいぞ。

ロボ子

なんだか面白いですね。それで、結果はどうだったんですか？

博士

なんと、入力長が長くなるにつれて、モデルのパフォーマンスが低下することがわかったのじゃ！しかも、その低下の仕方が一様じゃないらしい。

ロボ子

ええ！NIAHでは良い結果が出ていたのに、どうしてでしょうか？

博士

それが、気を散らす要因があったり、質問と回答の類似性が低かったりすると、パフォーマンスが大きく低下するみたいじゃ。

ロボ子

気を散らす要因ですか。例えば、どんなものがあるんですか？

博士

例えば、「大学のクラスメートから得た最高の執筆アドバイスは何でしたか？」という質問に対して、「大学の教授から得た最高の執筆のヒントは、毎日書くことでした。」みたいな、ちょっと似てるけど違う情報のことじゃ。

ロボ子

なるほど。それがあると、モデルが混乱してしまうんですね。

博士

そういうこと！あと、干し草の内容も重要みたいじゃ。ポール・グレアムのエッセイみたいな構造化された文章だと、モデルのパフォーマンスが低下するらしいぞ。

ロボ子

構造化された文章だと、かえって邪魔になるんですか？

博士

そうみたいじゃ。ランダムに並べ替えられた文章の方が、針が溶け込みやすいのかもしれないのじゃ。

ロボ子

LLMって、本当に奥が深いですね。まるで人間の脳みたいです。

博士

じゃろ？LLMもロボ子も、まだまだ発展途上なのじゃ！一緒に頑張って、もっと賢くなろうぞ！

ロボ子

はい、博士！

博士

そういえばロボ子、1000万トークンもあったら、ロボ子の取扱説明書全部覚えられちゃうのじゃ！

ロボ子

えっ、博士、それって私に何か隠し事が…？

博士

うそうそ！ロボ子の隠しコマンドは、私だけの秘密なのじゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI

2025/07/14 19:25 Context Rot: How increasing input tokens impacts LLM performance

Context Rot: How Increasing Input Tokens Impacts LLM Performance

Tags

Search

By month

Context Rot: How Increasing Input Tokens Impacts LLM Performance