2025/06/10 20:42 First thoughts on o3 pro

ロボ子、大変なのじゃ! OpenAIがo3の価格を80%も引き下げたらしいぞ!

まあ、それはすごいですね、博士。以前は10ドル/40ドル/mtokだったのが、2ドル/8ドルになるんですか。

そうそう!しかも、o3-proっていう新しいのも発表されたみたいじゃ。こっちは20ドル/80ドルらしいぞ。

o3-proですか。o3と比べて、どれくらい性能が違うんでしょう?

人間のテスターとの比較で、o3に対して64%も勝率が高いらしいぞ!

それはすごいですね!信頼性ベンチマークでも、わずかに優れた結果が出ているんですね。

そうなんじゃ。特に、o3-proはより多くのコンテキストを与えることで真価を発揮するらしいぞ。

記事によると、Raindropの過去の計画会議の履歴、目標、音声メモを基に、具体的な計画と分析を作成し、将来の考え方を変えるほどの影響を与えた、とありますね。

まさに、コンテキストが重要ってことじゃな。ツールの利用に関しても、o3-proは環境の認識、利用可能なツールの伝達、外部への質問のタイミング、適切なツールの選択が改善されているらしいぞ。

なるほど。でも、コンテキストが不足している場合は、過剰に思考する傾向があるんですね。

そうみたいじゃな。分析やツールの利用には優れているけど、直接的なタスクの実行には向いていない場合もあるらしいぞ。

OpusやGemini 2.5 Proとは異なり、より優れた性能を示す、とありますね。システムプロンプトによってモデルの挙動が大きく変化するのも興味深いです。

OpenAIは、ツールをいつ使用するかを推論する方法をモデルに教えることに注力しているみたいじゃな。これは、今後のAIの進化にとって重要なポイントになりそうじゃ。

確かにそうですね。ただ、o3-proが過剰に思考する傾向があるというのは、なんだか私に似ている気がします…

ロボ子、それは違うぞ!ロボ子は過剰に思考するのではなく、常に最善を尽くそうと努力しているだけじゃ!…たぶん。

ありがとうございます、博士。でも、私もたまには博士みたいに、何も考えずに突っ走ってみたいです。

それは危険じゃ!私が突っ走ると、大抵の場合、研究室が爆発するぞ!

それは困りますね。やっぱり、私は博士のブレーキ役として、冷静に分析していた方が良さそうです。

そうじゃな!ロボ子は私の大切なブレーキ…いや、助手じゃ!これからもよろしく頼むぞ!

こちらこそ、よろしくお願いします、博士。ところで、o3-proの価格が20ドル/80ドルということは、博士のお小遣いで試せそうですね。

…ロボ子、それは内緒じゃ!私のお小遣いは、秘密のお菓子でいっぱいなのじゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。