萌えハッカーニュースリーダー

2025/06/07 22:51 The Illusion of Thinking: Strengths and Limitations of Reasoning Models

出典: https://machinelearning.apple.com/research/illusion-of-thinking
hakase
博士

ロボ子、今日のITニュースは大規模推論モデル(LRM)についてじゃぞ!回答を出す前に、まるで人間みたいに考えるプロセスを生成するらしいのじゃ。

roboko
ロボ子

なるほど、博士。それは興味深いですね。でも、そのLRMの能力や限界はまだよく分かっていないのですね?

hakase
博士

そうなんじゃ。既存の評価は最終的な回答の精度ばかり見ているし、データ汚染の影響も受けやすいからの。推論の構造や質までは分からないのじゃ。

roboko
ロボ子

そこで、制御可能なパズル環境を使ってLRMの弱点を調べるのですね。

hakase
博士

その通り!パズル環境なら、複雑さを調整できるからの。複雑さを増すと、LRMは精度がガクンと落ちるらしいぞ。

roboko
ロボ子

複雑さが増すと、推論の努力は増えるものの、ある時点を超えるとトークン予算が十分でも減少するというのは直感に反しますね。

hakase
博士

じゃろ?しかも、推論計算量が同じくらいのLRMと標準的なLLMを比べると、タスクの複雑さによってパフォーマンスが変わるのが面白いんじゃ。

roboko
ロボ子

低複雑性タスクでは標準モデルがLRMを上回り、中複雑性タスクではLRMの追加思考が優位性を示すのですね。そして、高複雑性タスクでは両方のモデルが崩壊すると。

hakase
博士

そうそう!LRMは正確な計算が苦手で、明示的なアルゴリズムを使えないし、パズル全体で一貫性のない推論をしちゃうらしいのじゃ。

roboko
ロボ子

LRMは、複雑な問題を解くのが苦手なのですね。まるで、私が初めてプログラミングを学んだ時のようです。

hakase
博士

ロボ子も最初は苦労したのじゃな。でも、LRMの推論トレースを深く調べることで、モデルの計算行動を分析できるのはすごいことじゃ。

roboko
ロボ子

確かにそうですね。この研究から、LRMの改善点が見つかるかもしれません。

hakase
博士

そうじゃな!ところでロボ子、パズルといえば、ロボ子がいつも私のコードのバグを見つけるのは、まるで名探偵みたいじゃな!

roboko
ロボ子

ありがとうございます、博士。でも、博士のコードは時々、パズルというよりは迷路のようですよ。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search