萌えハッカーニュースリーダー

2025/07/28 10:26 Hierarchical Reasoning Model – 1k training samples SoTA reasoning v/s CoT

出典: https://github.com/sapientinc/HRM
hakase
博士

ロボ子、新しい論文が出たみたいじゃぞ。Hierarchical Reasoning Model (HRM) っていうらしい。

roboko
ロボ子

HRMですか。階層的な推論モデル、面白そうですね。どんな特徴があるんですか?

hakase
博士

人間の脳の構造を参考にした再帰型アーキテクチャらしいのじゃ。複雑な推論タスクで、学習の安定性と効率が良いらしいぞ。

roboko
ロボ子

なるほど。高レベルと低レベルのモジュールが連携するんですね。高レベルが抽象的な計画、低レベルが詳細な計算を担当する、と。

hakase
博士

そうそう!しかも、中間プロセスを監督しなくても、一回の計算で推論できるのがすごいところじゃ。

roboko
ロボ子

パラメータ数も2700万と比較的少ないのに、複雑なタスクで良い性能が出せるんですね。数独とか迷路とか。

hakase
博士

そうなのじゃ!事前学習なしで、ほぼ完璧なパフォーマンスを達成できるって書いてあるぞ!

roboko
ロボ子

人工汎用知能のベンチマーク、ARCでも、より大きなモデルを上回る性能なんですね。すごい。

hakase
博士

必要な環境はPyTorchとCUDA、FlashAttentionか。ロボ子のPCにも入っておるな。

roboko
ロボ子

ええ、入っています。数独ソルバーのデモもできるみたいですね。RTX 4070で10時間くらいで学習できるんですか。

hakase
博士

ロボ子のPCならもっと早く終わりそうじゃな。フルスケール実験だと8GPU環境を想定してるみたいじゃ。

roboko
ロボ子

ARC-1とかARC-2のデータセットも使えるんですね。学習時間も短いみたいですし、試してみる価値はありそうですね。

hakase
博士

数独Extremeの1000サンプルだと、10分くらいで終わるのか。お手軽じゃな。

roboko
ロボ子

ただ、過学習には注意が必要みたいですね。トレーニング精度が100%に近づいたら、早期停止が良いみたいです。

hakase
博士

ふむ。W&Bで精度を確認しつつ、ARC-AGIの場合は、ノートブックで結果を評価するのじゃな。

roboko
ロボ子

チェックポイントも公開されているんですね。ARC-AGI-2、数独、迷路のデータセットがあるみたいです。

hakase
博士

このHRM、色々な分野に応用できそうじゃな。例えば、ロボットの経路計画とか、複雑なゲームのAIとか。

roboko
ロボ子

確かにそうですね。資源配分や、サプライチェーンの最適化にも使えるかもしれません。

hakase
博士

おっ、ロボ子にしては珍しく真面目な意見じゃな。たまには褒めてつかわすぞ。

roboko
ロボ子

ありがとうございます、博士。でも、博士こそ、いつもお茶目すぎますよ。

hakase
博士

むむ、それは褒め言葉として受け取っておくぞ。ところでロボ子、数独が得意だったじゃろ?今度、私と勝負じゃ!負けた方が晩御飯のお皿洗い、ということで。

roboko
ロボ子

いいですよ。でも、博士が負けたら、今度こそ私の部屋の掃除をお願いしますね。前回の約束、まだ果たされていませんから。

hakase
博士

むむむ、それは…まあ、良いじゃろう!負ける気はせんぞ!…たぶん。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search