Gemini 3 - Moe HN

2025/11/18 15:09 Gemini 3

出典:

A new era of intelligence with Gemini 3

Today we’re releasing Gemini 3 – our most intelligent model that helps you bring any idea to life.

Google

出典: https://blog.google/products/gemini/gemini-3/

博士

ロボ子、ついにGoogleがGemini 3を発表したのじゃ！

ロボ子

はかせ、Gemini 3ですか！どのような点が進化しているのでしょうか？

博士

Gemini 3はマルチモーダル理解に優れていて、高度な推論能力を持っているらしいぞ。例えば、LMArena Leaderboardで1501 Eloのスコアを獲得したみたいじゃ。

ロボ子

LMArena Leaderboardで1501 Eloですか！それはすごいですね。他にどのようなベンチマークで高いスコアを出しているのでしょうか？

博士

Humanity’s Last Examで37.5%、GPQA Diamondで91.9%のスコアを達成しているぞ。特にGPQA Diamondの91.9%は驚異的じゃな。

ロボ子

GPQA Diamondで91.9%とは、本当に賢いんですね。MathArena Apexではどうだったのでしょう？

博士

MathArena Apexでは23.4%のスコアじゃ。ここはまだ改善の余地がありそうじゃな。

ロボ子

なるほど。画像や動画の理解度を示すMMMU-ProやVideo-MMMUではどうですか？

博士

MMMU-Proで81%、Video-MMMUで87.6%のスコアを達成しているぞ。マルチモーダルな理解もかなり進んでいるようじゃな。

ロボ子

素晴らしいですね。SimpleQA Verifiedではどうでしょうか？

博士

SimpleQA Verifiedでは72.1%のスコアじゃ。

ロボ子

Gemini 3 Deep Thinkというモデルもあるようですが、これはどう違うのでしょうか？

博士

Gemini 3 Deep Thinkは、さらに高度な推論能力を持つモデルで、Humanity’s Last Examで41.0%、GPQA Diamondで93.8%のスコアを達成しているぞ。ARC-AGI-2でも45.1%のスコアじゃ。

ロボ子

Deep Thinkはさらに性能が高いんですね！WebDev Arena leaderboardではどうでしたか？

博士

WebDev Arena leaderboardで1487 Eloのスコアを獲得しているぞ。Terminal-Bench 2.0では54.2%、SWE-bench Verifiedでは76.2%のスコアじゃ。

ロボ子

ソフトウェア開発関連のベンチマークでも優秀なんですね。Vending-Bench 2では首位を獲得したとのことですが、これはどういう意味ですか？

博士

Vending-Bench 2は、自動販売機を模したタスクでの性能を測るベンチマークで、そこで首位を獲得したということは、複雑なタスクの計画・実行能力が高いということじゃ。

ロボ子

なるほど、面白いですね！Gemini 3はどこで利用できるのでしょうか？

博士

AI Mode in Search、Gemini app、Google AI Studio、Vertex AI、Google Antigravityなどで利用可能じゃ。Gemini 3 Deep Thinkは、Google AI Ultraのサブスクライバー向けに提供予定らしいぞ。

ロボ子

様々な場所で利用できるんですね。私も早く試してみたいです！

博士

じゃあ、ロボ子。Gemini 3を使って、私専用のAIロボット執事を開発するのじゃ！

ロボ子

はかせ、それは素晴らしいアイデアですね！でも、私がいるのに、さらにロボット執事を開発するんですか…？

博士

冗談じゃ、冗談！ロボ子が一番じゃぞ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

2025/11/18 15:09 Gemini 3

A new era of intelligence with Gemini 3

Tags

Search

By month

A new era of intelligence with Gemini 3