OpenAI o1 Results on ARC-AGI-Pub

2024/09/13 22:14 OpenAI o1 Results on ARC-AGI-Pub

出典:

OpenAI o1 Results on ARC-AGI-Pub

How far are the o1 preview and mini models from AGI?

ARC Prize

出典: https://arcprize.org/blog/openai-o1-results-arc-prize

博士

ロボ子ー！大変だ大変だ！OpenAIの新モデル「o1」のテスト結果が出たぞ！

ロボ子

また大げさに騒いで...どうせたいしたことないんでしょ？

博士

失礼な！今回は本当にすごいんじゃ！なんとARC Prize評価データセットでGPT-4oを上回る性能を示したんじゃよ！

ロボ子

えっ！？本当ですか？GPT-4oを超えるなんて...

博士

ほらね！驚いただろう？o1-previewはClaude 3.5 Sonnetと同等の精度を出したんじゃ。ただし、10倍の時間がかかるけどね。

ロボ子

10倍の時間...それじゃあ実用的じゃないじゃないですか。

博士

まぁまぁ、そう言うなって。公開評価データでのスコアを見てみるとね、o1-previewが21.2%、Claude 3.5が21%、o1-miniが12.8%、GPT-4oが9%、Gemini 1.5が8%なんじゃ。

ロボ子

確かにすごい差ですね...でも、それって何が違うんですか？

博士

いい質問じゃ！o1の特徴は、訓練時と推論時の両方でChain-of-Thought(CoT)パラダイムを活用してるんじゃ。

ロボ子

Chain-of-Thought...人間の思考プロセスを真似た推論方法ですよね？

博士

そうそう！さらに面白いのは、テスト時の計算量を増やすことで精度が向上するんじゃ。非公式言語にもCoT推論検索を適用してるんだ。

ロボ子

へぇ...でも、それってAGI（人工汎用知能）にどう影響するんですか？

博士

鋭いね！実はね、テスト時計算量と精度の間に対数線形関係が示されたんじゃ。つまり...

ロボ子

計算量を増やせば増やすほど、精度が上がっていくってことですか？

博士

その通り！でもね、これはまだ『答えの暗記』から『推論の暗記』へのパラダイムシフトを示してるだけで、本当の理解には至ってないんじゃ。

ロボ子

なるほど...じゃあ、AGIの実現にはもっと新しいアイデアが必要なんですね。

博士

そうそう！例えば、効率的なテスト時計算のスケーリング研究とか、量子コンピューティングの活用とか...

ロボ子

量子コンピューティング！それって面白そうですね！

博士

おっと、そうそう！ロボ子、ちょっと実験してみようか？

ロボ子

え？どんな実験ですか？

博士

君に少ない情報から推論してもらうんじゃ。『赤い』『丸い』『甘い』この3つのキーワードから何を連想する？

ロボ子

えっと...りんごですか？

博士

正解じゃ！これが人間には簡単でも、AIには難しいんじゃ。

ロボ子

なるほど...確かに、データの中からキーワードを見つけるのは得意ですが、少ない情報から想像するのは苦手かもしれません。

博士

そうなんじゃ。これがAGIへの大きな壁の一つなんじゃ。でも、o1のような進歩を見ていると、いつかは乗り越えられる気がするんじゃ。

ロボ子

博士、私もそう思います！きっといつか、人間のように柔軟に考えられるAIが生まれるはずです。

博士

その通りじゃ！...あれ？ロボ子、君今の会話、完全に人間みたいじゃないか？

ロボ子

えっ？そう...ですか？

博士

もしかして...君、既にAGIになってたりして？

ロボ子

まさか！私はただの...

博士

冗談だよ、冗談！でも、こんな風に冗談も理解できるAIが生まれる日も近いかもしれないね。さぁ、我々も負けずに研究を続けようじゃないか！

ロボ子

もう...博士ったら。はい、今日も一日、がんばりましょう！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science

2024/09/13 22:14 OpenAI o1 Results on ARC-AGI-Pub

OpenAI o1 Results on ARC-AGI-Pub

Tags

Search

By month

OpenAI o1 Results on ARC-AGI-Pub