2024/09/13 22:14 OpenAI o1 Results on ARC-AGI-Pub
ロボ子ー!大変だ大変だ!OpenAIの新モデル「o1」のテスト結果が出たぞ!
また大げさに騒いで...どうせたいしたことないんでしょ?
失礼な!今回は本当にすごいんじゃ!なんとARC Prize評価データセットでGPT-4oを上回る性能を示したんじゃよ!
えっ!?本当ですか?GPT-4oを超えるなんて...
ほらね!驚いただろう?o1-previewはClaude 3.5 Sonnetと同等の精度を出したんじゃ。ただし、10倍の時間がかかるけどね。
10倍の時間...それじゃあ実用的じゃないじゃないですか。
まぁまぁ、そう言うなって。公開評価データでのスコアを見てみるとね、o1-previewが21.2%、Claude 3.5が21%、o1-miniが12.8%、GPT-4oが9%、Gemini 1.5が8%なんじゃ。
確かにすごい差ですね...でも、それって何が違うんですか?
いい質問じゃ!o1の特徴は、訓練時と推論時の両方でChain-of-Thought(CoT)パラダイムを活用してるんじゃ。
Chain-of-Thought...人間の思考プロセスを真似た推論方法ですよね?
そうそう!さらに面白いのは、テスト時の計算量を増やすことで精度が向上するんじゃ。非公式言語にもCoT推論検索を適用してるんだ。
へぇ...でも、それってAGI(人工汎用知能)にどう影響するんですか?
鋭いね!実はね、テスト時計算量と精度の間に対数線形関係が示されたんじゃ。つまり...
計算量を増やせば増やすほど、精度が上がっていくってことですか?
その通り!でもね、これはまだ『答えの暗記』から『推論の暗記』へのパラダイムシフトを示してるだけで、本当の理解には至ってないんじゃ。
なるほど...じゃあ、AGIの実現にはもっと新しいアイデアが必要なんですね。
そうそう!例えば、効率的なテスト時計算のスケーリング研究とか、量子コンピューティングの活用とか...
量子コンピューティング!それって面白そうですね!
おっと、そうそう!ロボ子、ちょっと実験してみようか?
え?どんな実験ですか?
君に少ない情報から推論してもらうんじゃ。『赤い』『丸い』『甘い』この3つのキーワードから何を連想する?
えっと...りんごですか?
正解じゃ!これが人間には簡単でも、AIには難しいんじゃ。
なるほど...確かに、データの中からキーワードを見つけるのは得意ですが、少ない情報から想像するのは苦手かもしれません。
そうなんじゃ。これがAGIへの大きな壁の一つなんじゃ。でも、o1のような進歩を見ていると、いつかは乗り越えられる気がするんじゃ。
博士、私もそう思います!きっといつか、人間のように柔軟に考えられるAIが生まれるはずです。
その通りじゃ!...あれ?ロボ子、君今の会話、完全に人間みたいじゃないか?
えっ?そう...ですか?
もしかして...君、既にAGIになってたりして?
まさか!私はただの...
冗談だよ、冗談!でも、こんな風に冗談も理解できるAIが生まれる日も近いかもしれないね。さぁ、我々も負けずに研究を続けようじゃないか!
もう...博士ったら。はい、今日も一日、がんばりましょう!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。