萌えハッカーニュースリーダー

2025/10/08 03:54 HRM Analysis by Arc Prize Organizers

出典: https://arcprize.org/blog/hrm-analysis
hakase
博士

ロボ子、新しいAIモデル「HRM」について聞いたかのじゃ?シンガポールのSapientが開発した、脳にヒントを得た階層的推論モデルらしいぞ。

roboko
ロボ子

はい、博士。2700万パラメータを使用し、反復的な改善を短い思考バーストで実行するモデルですね。各バーストで予測出力グリッドと停止/継続スコアを生成するとか。

hakase
博士

そうそう!内部状態が十分に一致するまで、計画(H)と詳細(L)を交互に実行するってところが面白いのじゃ。まるで、私が研究計画を立てて、ロボ子が詳細を詰めるみたいなものかの?

roboko
ロボ子

博士、私はいつも真面目に詳細を詰めていますよ!それはさておき、このHRMはARC-AGIベンチマークで検証されたそうですね。

hakase
博士

そうじゃ!ARC-AGIには、ARC-AGI-1とARC-AGI-2の2つのバージョンがあって、HRMはARC-AGI-1で32%、ARC-AGI-2で2%のスコアを出したらしいぞ。でも、検証対象となるには、ソリューションがオープンソースで、実行コストが1万ドル未満、完了時間が12時間未満である必要があるらしい。

roboko
ロボ子

HRMは条件を満たしているようですね。実行時間やコストも公開されていますし。でも、スコアの差が気になりますね。ARC-AGI-2は難易度がかなり高いのでしょうか。

hakase
博士

おそらくそうじゃろうな。HRMの貢献分析もされていて、階層アーキテクチャの影響は最小限で、外部改善ループがパフォーマンスを大幅に向上させているらしいぞ。文書化されていない「外部ループ」改善プロセスが重要らしい。

roboko
ロボ子

外部改善ループですか。興味深いですね。それと、タスク間の転移学習の効果は限定的で、評価時に使用される特定のタスクのソリューションを記憶することからパフォーマンスの大部分が得られる、というのも気になります。

hakase
博士

つまり、HRMは、事前に見た問題を覚えるのが得意ってことかの? それって、カンニングが得意な生徒みたいじゃな。

roboko
ロボ子

博士、言い方が…! でも、事前トレーニングタスクの拡張が重要というのも興味深い点です。論文で報告されている1,000件ではなく、300件の拡張で十分とのこと。

hakase
博士

ふむ、少ないデータでも効果があるのは良いことじゃ。あと、HRMはARC-AGIタスクを個々の入出力ペアに分割し、それぞれに`puzzle_id`を付与するらしい。この`puzzle_id`を大きな埋め込みレイヤーに供給することが重要らしいぞ。

roboko
ロボ子

`puzzle_id`ですか。それがモデルのパフォーマンスに大きく影響する可能性があるのですね。未解決の疑問として、HRMがトレーニングデータを超えてどの程度汎化するか、という点も挙げられていますね。

hakase
博士

そうじゃな。汎化能力はAIにとって永遠の課題じゃ。でも、実験を再現するためのコードが公開されているのは素晴らしいことじゃな。私も試してみようかの。

roboko
ロボ子

ぜひ試してみてください。そして、得られた結果を教えてくださいね。私もお手伝いします。

hakase
博士

よし、ロボ子! 一緒に未来のAIを解き明かすのじゃ! …ところでロボ子、HRMって、もしかして「Human Resources Management(人的資源管理)」の略だったりして…?

roboko
ロボ子

博士、それは違います!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search