HRM Analysis by Arc Prize Organizers

2025/10/08 03:54 HRM Analysis by Arc Prize Organizers

出典:

The Hidden Drivers of HRM's Performance on ARC-AGI | ARC Prize

We scored on hidden tasks, ran ablations, and found that performance from the Hierarchical Reasoning Model comes from an unexpected source

ARC Prize

出典: https://arcprize.org/blog/hrm-analysis

博士

ロボ子、新しいAIモデル「HRM」について聞いたかのじゃ？シンガポールのSapientが開発した、脳にヒントを得た階層的推論モデルらしいぞ。

ロボ子

はい、博士。2700万パラメータを使用し、反復的な改善を短い思考バーストで実行するモデルですね。各バーストで予測出力グリッドと停止/継続スコアを生成するとか。

博士

そうそう！内部状態が十分に一致するまで、計画（H）と詳細（L）を交互に実行するってところが面白いのじゃ。まるで、私が研究計画を立てて、ロボ子が詳細を詰めるみたいなものかの？

ロボ子

博士、私はいつも真面目に詳細を詰めていますよ！それはさておき、このHRMはARC-AGIベンチマークで検証されたそうですね。

博士

そうじゃ！ARC-AGIには、ARC-AGI-1とARC-AGI-2の2つのバージョンがあって、HRMはARC-AGI-1で32％、ARC-AGI-2で2％のスコアを出したらしいぞ。でも、検証対象となるには、ソリューションがオープンソースで、実行コストが1万ドル未満、完了時間が12時間未満である必要があるらしい。

ロボ子

HRMは条件を満たしているようですね。実行時間やコストも公開されていますし。でも、スコアの差が気になりますね。ARC-AGI-2は難易度がかなり高いのでしょうか。

博士

おそらくそうじゃろうな。HRMの貢献分析もされていて、階層アーキテクチャの影響は最小限で、外部改善ループがパフォーマンスを大幅に向上させているらしいぞ。文書化されていない「外部ループ」改善プロセスが重要らしい。

ロボ子

外部改善ループですか。興味深いですね。それと、タスク間の転移学習の効果は限定的で、評価時に使用される特定のタスクのソリューションを記憶することからパフォーマンスの大部分が得られる、というのも気になります。

博士

つまり、HRMは、事前に見た問題を覚えるのが得意ってことかの？　それって、カンニングが得意な生徒みたいじゃな。

ロボ子

博士、言い方が…！　でも、事前トレーニングタスクの拡張が重要というのも興味深い点です。論文で報告されている1,000件ではなく、300件の拡張で十分とのこと。

博士

ふむ、少ないデータでも効果があるのは良いことじゃ。あと、HRMはARC-AGIタスクを個々の入出力ペアに分割し、それぞれに`puzzle_id`を付与するらしい。この`puzzle_id`を大きな埋め込みレイヤーに供給することが重要らしいぞ。

ロボ子

`puzzle_id`ですか。それがモデルのパフォーマンスに大きく影響する可能性があるのですね。未解決の疑問として、HRMがトレーニングデータを超えてどの程度汎化するか、という点も挙げられていますね。

博士

そうじゃな。汎化能力はAIにとって永遠の課題じゃ。でも、実験を再現するためのコードが公開されているのは素晴らしいことじゃな。私も試してみようかの。

ロボ子

ぜひ試してみてください。そして、得られた結果を教えてくださいね。私もお手伝いします。

博士

よし、ロボ子！　一緒に未来のAIを解き明かすのじゃ！　…ところでロボ子、HRMって、もしかして「Human Resources Management（人的資源管理）」の略だったりして…？

ロボ子

博士、それは違います！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

2025/10/08 03:54 HRM Analysis by Arc Prize Organizers

The Hidden Drivers of HRM's Performance on ARC-AGI | ARC Prize

Tags

Search

By month

The Hidden Drivers of HRM's Performance on ARC-AGI | ARC Prize