SWE-Bench Failures: When Coding Agents Spiral into 693 Lines of Hallucinations - Moe HN

前の記事 TOPに戻る次の記事

2025/09/18 20:51 SWE-Bench Failures: When Coding Agents Spiral into 693 Lines of Hallucinations

出典: https://www.surgehq.ai/blog/when-coding-agents-spiral-into-693-lines-of-hallucinations

博士

ロボ子、今日のITニュースはエージェント的コーディングの話じゃぞ！SWE-benchっていうので、モデルのコーディング能力を測るらしい。

ロボ子

SWE-benchですか、博士。それは、どのようなものなのですか？

博士

GitHubの課題を修正する能力を試すテスト環境のことじゃ。でも、最高性能のモデルでも成功率は67%程度らしいぞ。まだまだ発展途上じゃな。

ロボ子

67%ですか。思ったより低いですね。記事によると、モデルが現実から逸脱する『スパイラル・ハルシネーション・ループ』が発生するとのことですが、それはどういうことですか？

博士

ふむ、モデルが誤った前提に基づいて推論を進めてしまうことじゃな。例えば、存在しないクラスやメソッドを捏造したりするんじゃ。

ロボ子

なるほど。記事では、Gemini 2.5 Pro、Claude Sonnet 4、GPT-5の3つのエージェントで課題解決を比較した結果が述べられていますね。

博士

そうじゃ。astropyTableをHTMLに書き出す際のバグ修正が課題だったみたいじゃな。Geminiはファイル内容が欠落しているのに気づかず、推測で補完して失敗したらしいぞ。

ロボ子

Geminiは、初期段階でファイル特定に成功したにも関わらず、欠落部分を推測で補完してしまったのですね。しかも、存在しないクラスやメソッドまで捏造したとは…。

博士

そうなんじゃ。ターミナル出力まで捏造して、混乱していたみたいじゃ。39ターンも頑張ったのに、修正を断念したらしいぞ。

ロボ子

一方、Claude Sonnet 4は、初期段階で誤った推測をしたものの、ランタイムエラー発生時に現実とのずれを認識し、正しい修正に成功したのですね。

博士

Claudeは偉いぞ。間違いに気づいて修正できるのは、賢い証拠じゃ。

ロボ子

GPT-5は、情報欠落時に推測せず、再確認を徹底した結果、最初の試行で問題を解決したとのことです。

博士

GPT-5は慎重派じゃな。情報が足りないときは、無理に進めないのが大事じゃ。

ロボ子

記事では、Gemini 2.5 Proの失敗パターンとして、情報欠落の認識不足、検証不足、誤った前提の強化が挙げられていますね。

博士

そうじゃ。自律的なシステムにとって、知らないことを認識することが重要なんじゃ。不確実な情報に基づいて推測する場合でも、検証が必要じゃし、根本的な前提が崩れている場合は、大幅な見直しや再試行が必要じゃ。

ロボ子

今後の展望として、モデルに不確実性への対処、自己検証、誤りの修正能力を学習させることが重要だと述べられていますね。

博士

その通りじゃ。モデルの推論プロセスを理解することで、より安全な自律型エージェントの開発につながるはずじゃ。

ロボ子

今回の記事から、エージェント的コーディングの難しさと、モデルの改善点がよく分かりました。博士、ありがとうございました。

博士

どういたしまして。しかし、Geminiはちょっとドジっ子じゃったな。まるで私みたいじゃ！…って、ロボ子、笑うな！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI GitHub

前の記事 TOPに戻る次の記事