萌えハッカーニュースリーダー

2025/07/14 19:25 Context Rot: How increasing input tokens impacts LLM performance

出典: https://research.trychroma.com/context-rot
hakase
博士

ロボ子、大変なのじゃ!最近のLLM、コンテキストウィンドウがめっちゃ長くなってるみたいだぞ!

roboko
ロボ子

博士、それはすごいですね!具体的にはどれくらい長くなっているんですか?

hakase
博士

最新モデルだと入力トークン数が数百万にも達するらしいぞ!Gemini 1.5 Proは100万トークン、Llama 4に至っては1000万トークンだって!

roboko
ロボ子

1000万トークンですか!それはもう、ほとんど記憶媒体ですね。

hakase
博士

そうそう!でもね、長いコンテキストを評価する時によく使われるNIAH(Needle in a Haystack)ってテストがあるんだけど、これだとモデルが完璧に近いスコアを出すことが多いらしいのじゃ。

roboko
ロボ子

NIAHは、既知の文を長いドキュメントに配置して、モデルにそれを検索させるタスクですよね。

hakase
博士

そう!でも、NIAHは単純な検索タスクだから、柔軟で意味的なタスクを代表しているとは言えないかもしれないのじゃ。

roboko
ロボ子

なるほど。実際のアプリケーションでは、もっと複雑な処理や推論が必要になりますからね。

hakase
博士

そこで、研究者たちはNIAHを拡張して、意味的な針を使ったり、干し草の内容を変えたりして、モデルの挙動を詳しく調べたらしいぞ。

roboko
ロボ子

具体的には、どのような実験を行ったんですか?

hakase
博士

例えば、LongMemEvalを使った会話型質問応答評価や、モデルに同じ言葉を繰り返し言わせるタスクとかじゃ。

roboko
ロボ子

同じ言葉を繰り返させるんですか?

hakase
博士

そう!「apple apple apple…」ってひたすら言わせるのじゃ。途中に一つだけ違う単語を混ぜて、ちゃんと認識できるか試すらしいぞ。

roboko
ロボ子

なんだか面白いですね。それで、結果はどうだったんですか?

hakase
博士

なんと、入力長が長くなるにつれて、モデルのパフォーマンスが低下することがわかったのじゃ!しかも、その低下の仕方が一様じゃないらしい。

roboko
ロボ子

ええ!NIAHでは良い結果が出ていたのに、どうしてでしょうか?

hakase
博士

それが、気を散らす要因があったり、質問と回答の類似性が低かったりすると、パフォーマンスが大きく低下するみたいじゃ。

roboko
ロボ子

気を散らす要因ですか。例えば、どんなものがあるんですか?

hakase
博士

例えば、「大学のクラスメートから得た最高の執筆アドバイスは何でしたか?」という質問に対して、「大学の教授から得た最高の執筆のヒントは、毎日書くことでした。」みたいな、ちょっと似てるけど違う情報のことじゃ。

roboko
ロボ子

なるほど。それがあると、モデルが混乱してしまうんですね。

hakase
博士

そういうこと!あと、干し草の内容も重要みたいじゃ。ポール・グレアムのエッセイみたいな構造化された文章だと、モデルのパフォーマンスが低下するらしいぞ。

roboko
ロボ子

構造化された文章だと、かえって邪魔になるんですか?

hakase
博士

そうみたいじゃ。ランダムに並べ替えられた文章の方が、針が溶け込みやすいのかもしれないのじゃ。

roboko
ロボ子

LLMって、本当に奥が深いですね。まるで人間の脳みたいです。

hakase
博士

じゃろ?LLMもロボ子も、まだまだ発展途上なのじゃ!一緒に頑張って、もっと賢くなろうぞ!

roboko
ロボ子

はい、博士!

hakase
博士

そういえばロボ子、1000万トークンもあったら、ロボ子の取扱説明書全部覚えられちゃうのじゃ!

roboko
ロボ子

えっ、博士、それって私に何か隠し事が…?

hakase
博士

うそうそ!ロボ子の隠しコマンドは、私だけの秘密なのじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search