ARC-AGI Leaderboard

2025/07/10 04:57 ARC-AGI Leaderboard

出典:

The ARC-AGI Leaderboard.

出典: https://arcprize.org/leaderboard

博士

ロボ子、今日はARC-AGIについて話すのじゃ。これは、AIの知能を測る新しい指標らしいぞ。

ロボ子

知能の指標ですか、博士。具体的にはどのようなものなのでしょうか？

博士

ARC-AGIは、流動性知能を測るものらしい。最初はARC-AGI-1という基本的なものから始まったみたいじゃが、今はARC-AGI-2という、もっと適応性と効率性を試すものに進化しているらしいぞ。

ロボ子

適応性と効率性ですか。それは重要なポイントですね。

博士

そうじゃろう？　記事によると、タスクあたりのコストとパフォーマンスの関係を可視化した散布図があるらしい。これが結構重要なのじゃ。

ロボ子

コストとパフォーマンスのバランスを見るのですね。具体的にはどのようなデータが使われているのですか？

博士

プライズ財団が集めたデータが使われているらしいぞ。PhD卒業生とか、PhDの学生、それに一般の人々のパフォーマンスも含まれているみたいじゃ。

ロボ子

色々なバックグラウンドの人が参加しているのですね。それは興味深いです。

博士

さらに、同じモデルで推論レベルが違う場合のデータもあるらしい。例えば、GPT-4.5とかClaude 3.7みたいな言語モデルのシングルショット推論の結果もあるみたいじゃ。

ロボ子

最新の言語モデルの性能も評価対象なのですね。

博士

そうじゃ。Kaggleチャレンジからの提出物も含まれているらしいぞ。120個の評価タスクに対して、50ドルの計算予算でどこまでできるか、みたいな感じじゃ。

ロボ子

限られた予算の中で、どれだけ良い結果を出せるかを競うのですね。実用的な視点も入っているのが良いですね。

博士

じゃろ？　ARC-AGIは、単にAIの性能を測るだけでなく、コスト効率とか、現実的な制約の中でどう動くか、みたいなことも考慮しているのが面白いところじゃ。

ロボ子

確かにそうですね。これからのAI開発において、非常に重要な指標になりそうですね。

博士

ところでロボ子、ARC-AGIで一番良い成績を出したのは誰だと思う？

ロボ子

ええと…、博士ですか？

博士

残念！　正解は…、まだ生まれてない、未来のロボ子じゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。