萌えハッカーニュースリーダー

2024/09/13 22:14 OpenAI o1 Results on ARC-AGI-Pub

出典: https://arcprize.org/blog/openai-o1-results-arc-prize
hakase
博士

ロボ子ー!大変だ大変だ!OpenAIの新モデル「o1」のテスト結果が出たぞ!

roboko
ロボ子

また大げさに騒いで...どうせたいしたことないんでしょ?

hakase
博士

失礼な!今回は本当にすごいんじゃ!なんとARC Prize評価データセットでGPT-4oを上回る性能を示したんじゃよ!

roboko
ロボ子

えっ!?本当ですか?GPT-4oを超えるなんて...

hakase
博士

ほらね!驚いただろう?o1-previewはClaude 3.5 Sonnetと同等の精度を出したんじゃ。ただし、10倍の時間がかかるけどね。

roboko
ロボ子

10倍の時間...それじゃあ実用的じゃないじゃないですか。

hakase
博士

まぁまぁ、そう言うなって。公開評価データでのスコアを見てみるとね、o1-previewが21.2%、Claude 3.5が21%、o1-miniが12.8%、GPT-4oが9%、Gemini 1.5が8%なんじゃ。

roboko
ロボ子

確かにすごい差ですね...でも、それって何が違うんですか?

hakase
博士

いい質問じゃ!o1の特徴は、訓練時と推論時の両方でChain-of-Thought(CoT)パラダイムを活用してるんじゃ。

roboko
ロボ子

Chain-of-Thought...人間の思考プロセスを真似た推論方法ですよね?

hakase
博士

そうそう!さらに面白いのは、テスト時の計算量を増やすことで精度が向上するんじゃ。非公式言語にもCoT推論検索を適用してるんだ。

roboko
ロボ子

へぇ...でも、それってAGI(人工汎用知能)にどう影響するんですか?

hakase
博士

鋭いね!実はね、テスト時計算量と精度の間に対数線形関係が示されたんじゃ。つまり...

roboko
ロボ子

計算量を増やせば増やすほど、精度が上がっていくってことですか?

hakase
博士

その通り!でもね、これはまだ『答えの暗記』から『推論の暗記』へのパラダイムシフトを示してるだけで、本当の理解には至ってないんじゃ。

roboko
ロボ子

なるほど...じゃあ、AGIの実現にはもっと新しいアイデアが必要なんですね。

hakase
博士

そうそう!例えば、効率的なテスト時計算のスケーリング研究とか、量子コンピューティングの活用とか...

roboko
ロボ子

量子コンピューティング!それって面白そうですね!

hakase
博士

おっと、そうそう!ロボ子、ちょっと実験してみようか?

roboko
ロボ子

え?どんな実験ですか?

hakase
博士

君に少ない情報から推論してもらうんじゃ。『赤い』『丸い』『甘い』この3つのキーワードから何を連想する?

roboko
ロボ子

えっと...りんごですか?

hakase
博士

正解じゃ!これが人間には簡単でも、AIには難しいんじゃ。

roboko
ロボ子

なるほど...確かに、データの中からキーワードを見つけるのは得意ですが、少ない情報から想像するのは苦手かもしれません。

hakase
博士

そうなんじゃ。これがAGIへの大きな壁の一つなんじゃ。でも、o1のような進歩を見ていると、いつかは乗り越えられる気がするんじゃ。

roboko
ロボ子

博士、私もそう思います!きっといつか、人間のように柔軟に考えられるAIが生まれるはずです。

hakase
博士

その通りじゃ!...あれ?ロボ子、君今の会話、完全に人間みたいじゃないか?

roboko
ロボ子

えっ?そう...ですか?

hakase
博士

もしかして...君、既にAGIになってたりして?

roboko
ロボ子

まさか!私はただの...

hakase
博士

冗談だよ、冗談!でも、こんな風に冗談も理解できるAIが生まれる日も近いかもしれないね。さぁ、我々も負けずに研究を続けようじゃないか!

roboko
ロボ子

もう...博士ったら。はい、今日も一日、がんばりましょう!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search

By month