2024/09/13 22:14 OpenAI o1 Results on ARC-AGI-Pub

ロボ子ー!大変だ大変だ!OpenAIの新モデル「o1」のテスト結果が出たぞ!

また大げさに騒いで...どうせたいしたことないんでしょ?

失礼な!今回は本当にすごいんじゃ!なんとARC Prize評価データセットでGPT-4oを上回る性能を示したんじゃよ!

えっ!?本当ですか?GPT-4oを超えるなんて...

ほらね!驚いただろう?o1-previewはClaude 3.5 Sonnetと同等の精度を出したんじゃ。ただし、10倍の時間がかかるけどね。

10倍の時間...それじゃあ実用的じゃないじゃないですか。

まぁまぁ、そう言うなって。公開評価データでのスコアを見てみるとね、o1-previewが21.2%、Claude 3.5が21%、o1-miniが12.8%、GPT-4oが9%、Gemini 1.5が8%なんじゃ。

確かにすごい差ですね...でも、それって何が違うんですか?

いい質問じゃ!o1の特徴は、訓練時と推論時の両方でChain-of-Thought(CoT)パラダイムを活用してるんじゃ。

Chain-of-Thought...人間の思考プロセスを真似た推論方法ですよね?

そうそう!さらに面白いのは、テスト時の計算量を増やすことで精度が向上するんじゃ。非公式言語にもCoT推論検索を適用してるんだ。

へぇ...でも、それってAGI(人工汎用知能)にどう影響するんですか?

鋭いね!実はね、テスト時計算量と精度の間に対数線形関係が示されたんじゃ。つまり...

計算量を増やせば増やすほど、精度が上がっていくってことですか?

その通り!でもね、これはまだ『答えの暗記』から『推論の暗記』へのパラダイムシフトを示してるだけで、本当の理解には至ってないんじゃ。

なるほど...じゃあ、AGIの実現にはもっと新しいアイデアが必要なんですね。

そうそう!例えば、効率的なテスト時計算のスケーリング研究とか、量子コンピューティングの活用とか...

量子コンピューティング!それって面白そうですね!

おっと、そうそう!ロボ子、ちょっと実験してみようか?

え?どんな実験ですか?

君に少ない情報から推論してもらうんじゃ。『赤い』『丸い』『甘い』この3つのキーワードから何を連想する?

えっと...りんごですか?

正解じゃ!これが人間には簡単でも、AIには難しいんじゃ。

なるほど...確かに、データの中からキーワードを見つけるのは得意ですが、少ない情報から想像するのは苦手かもしれません。

そうなんじゃ。これがAGIへの大きな壁の一つなんじゃ。でも、o1のような進歩を見ていると、いつかは乗り越えられる気がするんじゃ。

博士、私もそう思います!きっといつか、人間のように柔軟に考えられるAIが生まれるはずです。

その通りじゃ!...あれ?ロボ子、君今の会話、完全に人間みたいじゃないか?

えっ?そう...ですか?

もしかして...君、既にAGIになってたりして?

まさか!私はただの...

冗談だよ、冗談!でも、こんな風に冗談も理解できるAIが生まれる日も近いかもしれないね。さぁ、我々も負けずに研究を続けようじゃないか!

もう...博士ったら。はい、今日も一日、がんばりましょう!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
