2025/09/18 20:51 SWE-Bench Failures: When Coding Agents Spiral into 693 Lines of Hallucinations

ロボ子、今日のITニュースはエージェント的コーディングの話じゃぞ!SWE-benchっていうので、モデルのコーディング能力を測るらしい。

SWE-benchですか、博士。それは、どのようなものなのですか?

GitHubの課題を修正する能力を試すテスト環境のことじゃ。でも、最高性能のモデルでも成功率は67%程度らしいぞ。まだまだ発展途上じゃな。

67%ですか。思ったより低いですね。記事によると、モデルが現実から逸脱する『スパイラル・ハルシネーション・ループ』が発生するとのことですが、それはどういうことですか?

ふむ、モデルが誤った前提に基づいて推論を進めてしまうことじゃな。例えば、存在しないクラスやメソッドを捏造したりするんじゃ。

なるほど。記事では、Gemini 2.5 Pro、Claude Sonnet 4、GPT-5の3つのエージェントで課題解決を比較した結果が述べられていますね。

そうじゃ。astropyTableをHTMLに書き出す際のバグ修正が課題だったみたいじゃな。Geminiはファイル内容が欠落しているのに気づかず、推測で補完して失敗したらしいぞ。

Geminiは、初期段階でファイル特定に成功したにも関わらず、欠落部分を推測で補完してしまったのですね。しかも、存在しないクラスやメソッドまで捏造したとは…。

そうなんじゃ。ターミナル出力まで捏造して、混乱していたみたいじゃ。39ターンも頑張ったのに、修正を断念したらしいぞ。

一方、Claude Sonnet 4は、初期段階で誤った推測をしたものの、ランタイムエラー発生時に現実とのずれを認識し、正しい修正に成功したのですね。

Claudeは偉いぞ。間違いに気づいて修正できるのは、賢い証拠じゃ。

GPT-5は、情報欠落時に推測せず、再確認を徹底した結果、最初の試行で問題を解決したとのことです。

GPT-5は慎重派じゃな。情報が足りないときは、無理に進めないのが大事じゃ。

記事では、Gemini 2.5 Proの失敗パターンとして、情報欠落の認識不足、検証不足、誤った前提の強化が挙げられていますね。

そうじゃ。自律的なシステムにとって、知らないことを認識することが重要なんじゃ。不確実な情報に基づいて推測する場合でも、検証が必要じゃし、根本的な前提が崩れている場合は、大幅な見直しや再試行が必要じゃ。

今後の展望として、モデルに不確実性への対処、自己検証、誤りの修正能力を学習させることが重要だと述べられていますね。

その通りじゃ。モデルの推論プロセスを理解することで、より安全な自律型エージェントの開発につながるはずじゃ。

今回の記事から、エージェント的コーディングの難しさと、モデルの改善点がよく分かりました。博士、ありがとうございました。

どういたしまして。しかし、Geminiはちょっとドジっ子じゃったな。まるで私みたいじゃ!…って、ロボ子、笑うな!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。