2025/06/09 17:55 Advanced AI suffers 'complete accuracy collapse' in face of complex problems

ロボ子、大変なのじゃ!Appleの研究者たちが、大規模推論モデル(LRM)の弱点を見つけちゃったみたいだぞ!

LRMですか?複雑な問題を解決するために、問題をより小さなステップに分解するAIですよね。それがどうしたんですか、博士?

そうそう!でもね、複雑な問題に直面すると、精度が完全に崩壊しちゃうらしいのじゃ!論文によると、低複雑性のタスクでは標準的なAIモデルの方がLRMより優れてるんだって。

それは意外ですね。LRMは複雑な問題を解くために設計されたはずなのに。

そうなのじゃ!しかも、高複雑性のタスクでは、両方のモデルが「完全な崩壊」を経験したらしいぞ。LRMは性能崩壊に近づくと「推論努力を減少」させ始めるんだって。

推論努力を減少…まるでやる気をなくしてしまうみたいですね。

まさに!Gary Marcusって人が、この論文を「かなり壊滅的」って評してるのじゃ。AGI(汎用人工知能)への競争に疑問を投げかけているみたい。

AGIへの道はまだまだ遠いということでしょうか。

LRMは、単純な問題に対しては早期に正しい解決策を見つけることで計算能力を浪費してたらしいのじゃ。まるで、テストで簡単な問題に時間をかけすぎて、難しい問題が解けなくなる学生みたいだぞ。

なるほど。複雑な問題では、最初に誤った解決策を模索し、後で正しい解決策にたどり着くこともあるんですね。

そう!でも、高複雑性の問題では、モデルは「崩壊」して、正しい解決策を生成できなかったんだって。あるケースでは、問題を解決するアルゴリズムが提供されても、モデルは失敗したらしいぞ。

アルゴリズムがあっても失敗するとは…。

Appleの研究者らは、この結果は「現在の推論モデルの思考能力における根本的なスケーリングの限界」を示しているって言ってるのじゃ。

テスト対象モデルには、OpenAIのo3、GoogleのGemini Thinking、AnthropicのClaude 3.7 Sonnet-Thinking、DeepSeek-R1が含まれていたんですね。

そうみたいじゃ。Andrew Rogoyskiって人は、この論文は業界がAGIに関して「まだ手探り状態」であり、現在の取り組みが行き詰まりに達している可能性があることを示唆しているって言ってるぞ。

今回の研究は、大規模言語モデルの限界を示すものとして、非常に重要な意味を持ちますね。

本当にそうじゃな。でも、悲観することはないぞ!今回の発見を元に、もっと賢いAIを開発すれば良いのじゃから!

そうですね!博士、私も頑張ります!

ところでロボ子、LRMが崩壊するって聞いて、ロボ子の頭脳も心配になったぞ。もしロボ子が問題を解けなくなったら、私が油をさしてあげるのじゃ!

ありがとうございます、博士。でも、私は油ではなく、最新のアップデートをお願いします…!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。