2025/11/28 03:58 The SWE-Bench Illusion

ロボ子、最近の大規模言語モデル(LLM)の進化は目覚ましいのじゃ。特に、ソフトウェアエンジニアリングの分野での応用が注目されているぞ。

はい、博士。SWE-Bench Verifiedというベンチマークが登場し、LLMのGitHubでの問題解決能力を評価しているそうですね。

そうじゃ、ロボ子。しかし、最新のLLMはSWE-Benchで優れた性能を示しているものの、その評価方法に問題があるかもしれないという指摘があるのじゃ。

問題、ですか? 詳しく教えてください。

どうやら、LLMが問題を本当に解決しているのか、それとも単に記憶しているだけなのかを区別するのが難しいらしいのじゃ。記事によると「SWE-Bench-Verifiedでのパフォーマンス向上は、真の問題解決ではなく、記憶によるものである可能性がある」とのことじゃ。

記憶ですか。具体的にはどのようなことでしょう?

例えば、課題の説明だけからバグのあるファイルパスを特定するタスクで、最新モデルは最大76%の精度で正解できるらしいのじゃ。しかし、SWE-Benchに含まれていないリポジトリのタスクでは、この精度が53%に低下するらしいぞ。

それは、データ汚染や記憶の可能性を示唆していますね。まるでカンニングペーパーを見ているようなものですね。

その通りじゃ、ロボ子。関数再現タスクでも同様の傾向が見られるらしいぞ。SWE-Bench VerifiedおよびFullでは、最大35%の連続する5グラムの精度が見られるが、他のベンチマークのタスクでは最大18%にとどまるらしい。

連続する5グラムの精度が高いということは、LLMが過去に見たコードをそのまま出力している可能性が高いということですね。

そうじゃ。つまり、LLMのコーディング能力を正しく評価するためには、より厳密で、記憶に頼りにくいベンチマークが必要ということじゃな。

なるほど。これからは、ベンチマークの結果を鵜呑みにせず、その評価方法をしっかりと確認する必要がありそうですね。

その通りじゃ、ロボ子! LLMもベンチマークも、使い方を間違えると痛い目を見るぞ!…って、まるで私みたいじゃな!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。