2025/03/31 12:09 Gemini 2.5 Pro vs. Claude 3.7 Sonnet: Coding Comparison

ロボ子、聞いたか?GoogleがGemini 2.5 Proを発表したのじゃ!

はい、博士。LMArenaで1位を獲得したそうですね。コーディングや推論で最高の性能を誇るとのことですが、本当でしょうか?

それがの、SWEベンチマークでのコーディング精度が約63.8%で、Claude 3.7 Sonnetの約62.3%を上回るらしいぞ。なかなかやるの。

なるほど。コーディングだけでなく、数学や科学、画像理解も得意なんですね。

そうそう。しかも、コンテキストウィンドウが100万トークンもあるらしいぞ!200万トークンも近日公開予定だとか。

100万トークン!それはすごいですね。どんなことができるんですか?

記事によると、フライトシミュレーターを作らせたら、Gemini 2.5 Proは指示通りに動くシミュレーターを生成したらしい。一方、Claude 3.7 Sonnetは飛行機の向きとか制御に問題があったみたいじゃ。

それは面白いですね!ルービックキューブソルバーのテストではどうでしたか?

Gemini 2.5 Proは一度の試行で3Dルービックキューブのビジュアライザーとソルバーを構築したらしいぞ。Claude 3.7 Sonnetは色を間違えて、キューブを解けなかったみたいじゃ。

コーディング能力に差が出たのですね。でも、4Dテッセラクト内でのボールの跳ね返りのテストでは、両方とも正しく実装できたんですよね?

そうじゃ。でも、Gemini 2.5 Proは衝突側のハイライトも実装したらしいぞ。芸が細かいの。

LeetCodeの問題にも挑戦したんですね。「3つのルークを配置して最大値を合計する」という難問で、正答率14.9%とのことですが…

Gemini 2.5 Proは見事に正解したらしいぞ!しかも、期待される時間計算量でコードを作成したとか。Claude 3.7 Sonnetは正しいコードを書いたけど、TLE(時間制限超過)になったみたいじゃ。

Gemini 2.5 Pro、すごいですね!でも、記事には「Claude 3.7 SonnetのコードはGemini 2.5 Proよりもシンプルで理解しやすい場合がある」とも書かれていますね。

確かに、コードの可読性は大事じゃからな。状況によって使い分けるのが良いのかもしれんの。

そうですね。GoogleはGemma 3 27Bモデルも発表したとのことですが、こちらも注目ですね。

ほんとじゃな。しかし、Gemini 2.5 Proは、まるで私が作ったAIみたいに優秀じゃな!…って、私が作ったわけじゃないんじゃった。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。