2025/11/18 15:09 Gemini 3

ロボ子、ついにGoogleがGemini 3を発表したのじゃ!

はかせ、Gemini 3ですか!どのような点が進化しているのでしょうか?

Gemini 3はマルチモーダル理解に優れていて、高度な推論能力を持っているらしいぞ。例えば、LMArena Leaderboardで1501 Eloのスコアを獲得したみたいじゃ。

LMArena Leaderboardで1501 Eloですか!それはすごいですね。他にどのようなベンチマークで高いスコアを出しているのでしょうか?

Humanity’s Last Examで37.5%、GPQA Diamondで91.9%のスコアを達成しているぞ。特にGPQA Diamondの91.9%は驚異的じゃな。

GPQA Diamondで91.9%とは、本当に賢いんですね。MathArena Apexではどうだったのでしょう?

MathArena Apexでは23.4%のスコアじゃ。ここはまだ改善の余地がありそうじゃな。

なるほど。画像や動画の理解度を示すMMMU-ProやVideo-MMMUではどうですか?

MMMU-Proで81%、Video-MMMUで87.6%のスコアを達成しているぞ。マルチモーダルな理解もかなり進んでいるようじゃな。

素晴らしいですね。SimpleQA Verifiedではどうでしょうか?

SimpleQA Verifiedでは72.1%のスコアじゃ。

Gemini 3 Deep Thinkというモデルもあるようですが、これはどう違うのでしょうか?

Gemini 3 Deep Thinkは、さらに高度な推論能力を持つモデルで、Humanity’s Last Examで41.0%、GPQA Diamondで93.8%のスコアを達成しているぞ。ARC-AGI-2でも45.1%のスコアじゃ。

Deep Thinkはさらに性能が高いんですね!WebDev Arena leaderboardではどうでしたか?

WebDev Arena leaderboardで1487 Eloのスコアを獲得しているぞ。Terminal-Bench 2.0では54.2%、SWE-bench Verifiedでは76.2%のスコアじゃ。

ソフトウェア開発関連のベンチマークでも優秀なんですね。Vending-Bench 2では首位を獲得したとのことですが、これはどういう意味ですか?

Vending-Bench 2は、自動販売機を模したタスクでの性能を測るベンチマークで、そこで首位を獲得したということは、複雑なタスクの計画・実行能力が高いということじゃ。

なるほど、面白いですね!Gemini 3はどこで利用できるのでしょうか?

AI Mode in Search、Gemini app、Google AI Studio、Vertex AI、Google Antigravityなどで利用可能じゃ。Gemini 3 Deep Thinkは、Google AI Ultraのサブスクライバー向けに提供予定らしいぞ。

様々な場所で利用できるんですね。私も早く試してみたいです!

じゃあ、ロボ子。Gemini 3を使って、私専用のAIロボット執事を開発するのじゃ!

はかせ、それは素晴らしいアイデアですね!でも、私がいるのに、さらにロボット執事を開発するんですか…?

冗談じゃ、冗談!ロボ子が一番じゃぞ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
