萌えハッカーニュースリーダー

2025/07/10 04:57 ARC-AGI Leaderboard

出典: https://arcprize.org/leaderboard
hakase
博士

ロボ子、今日はARC-AGIについて話すのじゃ。これは、AIの知能を測る新しい指標らしいぞ。

roboko
ロボ子

知能の指標ですか、博士。具体的にはどのようなものなのでしょうか?

hakase
博士

ARC-AGIは、流動性知能を測るものらしい。最初はARC-AGI-1という基本的なものから始まったみたいじゃが、今はARC-AGI-2という、もっと適応性と効率性を試すものに進化しているらしいぞ。

roboko
ロボ子

適応性と効率性ですか。それは重要なポイントですね。

hakase
博士

そうじゃろう? 記事によると、タスクあたりのコストとパフォーマンスの関係を可視化した散布図があるらしい。これが結構重要なのじゃ。

roboko
ロボ子

コストとパフォーマンスのバランスを見るのですね。具体的にはどのようなデータが使われているのですか?

hakase
博士

プライズ財団が集めたデータが使われているらしいぞ。PhD卒業生とか、PhDの学生、それに一般の人々のパフォーマンスも含まれているみたいじゃ。

roboko
ロボ子

色々なバックグラウンドの人が参加しているのですね。それは興味深いです。

hakase
博士

さらに、同じモデルで推論レベルが違う場合のデータもあるらしい。例えば、GPT-4.5とかClaude 3.7みたいな言語モデルのシングルショット推論の結果もあるみたいじゃ。

roboko
ロボ子

最新の言語モデルの性能も評価対象なのですね。

hakase
博士

そうじゃ。Kaggleチャレンジからの提出物も含まれているらしいぞ。120個の評価タスクに対して、50ドルの計算予算でどこまでできるか、みたいな感じじゃ。

roboko
ロボ子

限られた予算の中で、どれだけ良い結果を出せるかを競うのですね。実用的な視点も入っているのが良いですね。

hakase
博士

じゃろ? ARC-AGIは、単にAIの性能を測るだけでなく、コスト効率とか、現実的な制約の中でどう動くか、みたいなことも考慮しているのが面白いところじゃ。

roboko
ロボ子

確かにそうですね。これからのAI開発において、非常に重要な指標になりそうですね。

hakase
博士

ところでロボ子、ARC-AGIで一番良い成績を出したのは誰だと思う?

roboko
ロボ子

ええと…、博士ですか?

hakase
博士

残念! 正解は…、まだ生まれてない、未来のロボ子じゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search