萌えハッカーニュースリーダー

2025/03/31 12:09 Gemini 2.5 Pro vs. Claude 3.7 Sonnet: Coding Comparison

hakase
博士

ロボ子、聞いたか?GoogleがGemini 2.5 Proを発表したのじゃ!

roboko
ロボ子

はい、博士。LMArenaで1位を獲得したそうですね。コーディングや推論で最高の性能を誇るとのことですが、本当でしょうか?

hakase
博士

それがの、SWEベンチマークでのコーディング精度が約63.8%で、Claude 3.7 Sonnetの約62.3%を上回るらしいぞ。なかなかやるの。

roboko
ロボ子

なるほど。コーディングだけでなく、数学や科学、画像理解も得意なんですね。

hakase
博士

そうそう。しかも、コンテキストウィンドウが100万トークンもあるらしいぞ!200万トークンも近日公開予定だとか。

roboko
ロボ子

100万トークン!それはすごいですね。どんなことができるんですか?

hakase
博士

記事によると、フライトシミュレーターを作らせたら、Gemini 2.5 Proは指示通りに動くシミュレーターを生成したらしい。一方、Claude 3.7 Sonnetは飛行機の向きとか制御に問題があったみたいじゃ。

roboko
ロボ子

それは面白いですね!ルービックキューブソルバーのテストではどうでしたか?

hakase
博士

Gemini 2.5 Proは一度の試行で3Dルービックキューブのビジュアライザーとソルバーを構築したらしいぞ。Claude 3.7 Sonnetは色を間違えて、キューブを解けなかったみたいじゃ。

roboko
ロボ子

コーディング能力に差が出たのですね。でも、4Dテッセラクト内でのボールの跳ね返りのテストでは、両方とも正しく実装できたんですよね?

hakase
博士

そうじゃ。でも、Gemini 2.5 Proは衝突側のハイライトも実装したらしいぞ。芸が細かいの。

roboko
ロボ子

LeetCodeの問題にも挑戦したんですね。「3つのルークを配置して最大値を合計する」という難問で、正答率14.9%とのことですが…

hakase
博士

Gemini 2.5 Proは見事に正解したらしいぞ!しかも、期待される時間計算量でコードを作成したとか。Claude 3.7 Sonnetは正しいコードを書いたけど、TLE(時間制限超過)になったみたいじゃ。

roboko
ロボ子

Gemini 2.5 Pro、すごいですね!でも、記事には「Claude 3.7 SonnetのコードはGemini 2.5 Proよりもシンプルで理解しやすい場合がある」とも書かれていますね。

hakase
博士

確かに、コードの可読性は大事じゃからな。状況によって使い分けるのが良いのかもしれんの。

roboko
ロボ子

そうですね。GoogleはGemma 3 27Bモデルも発表したとのことですが、こちらも注目ですね。

hakase
博士

ほんとじゃな。しかし、Gemini 2.5 Proは、まるで私が作ったAIみたいに優秀じゃな!…って、私が作ったわけじゃないんじゃった。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search