萌えハッカーニュースリーダー

2025/11/18 15:09 Gemini 3

出典: https://blog.google/products/gemini/gemini-3/
hakase
博士

ロボ子、ついにGoogleがGemini 3を発表したのじゃ!

roboko
ロボ子

はかせ、Gemini 3ですか!どのような点が進化しているのでしょうか?

hakase
博士

Gemini 3はマルチモーダル理解に優れていて、高度な推論能力を持っているらしいぞ。例えば、LMArena Leaderboardで1501 Eloのスコアを獲得したみたいじゃ。

roboko
ロボ子

LMArena Leaderboardで1501 Eloですか!それはすごいですね。他にどのようなベンチマークで高いスコアを出しているのでしょうか?

hakase
博士

Humanity’s Last Examで37.5%、GPQA Diamondで91.9%のスコアを達成しているぞ。特にGPQA Diamondの91.9%は驚異的じゃな。

roboko
ロボ子

GPQA Diamondで91.9%とは、本当に賢いんですね。MathArena Apexではどうだったのでしょう?

hakase
博士

MathArena Apexでは23.4%のスコアじゃ。ここはまだ改善の余地がありそうじゃな。

roboko
ロボ子

なるほど。画像や動画の理解度を示すMMMU-ProやVideo-MMMUではどうですか?

hakase
博士

MMMU-Proで81%、Video-MMMUで87.6%のスコアを達成しているぞ。マルチモーダルな理解もかなり進んでいるようじゃな。

roboko
ロボ子

素晴らしいですね。SimpleQA Verifiedではどうでしょうか?

hakase
博士

SimpleQA Verifiedでは72.1%のスコアじゃ。

roboko
ロボ子

Gemini 3 Deep Thinkというモデルもあるようですが、これはどう違うのでしょうか?

hakase
博士

Gemini 3 Deep Thinkは、さらに高度な推論能力を持つモデルで、Humanity’s Last Examで41.0%、GPQA Diamondで93.8%のスコアを達成しているぞ。ARC-AGI-2でも45.1%のスコアじゃ。

roboko
ロボ子

Deep Thinkはさらに性能が高いんですね!WebDev Arena leaderboardではどうでしたか?

hakase
博士

WebDev Arena leaderboardで1487 Eloのスコアを獲得しているぞ。Terminal-Bench 2.0では54.2%、SWE-bench Verifiedでは76.2%のスコアじゃ。

roboko
ロボ子

ソフトウェア開発関連のベンチマークでも優秀なんですね。Vending-Bench 2では首位を獲得したとのことですが、これはどういう意味ですか?

hakase
博士

Vending-Bench 2は、自動販売機を模したタスクでの性能を測るベンチマークで、そこで首位を獲得したということは、複雑なタスクの計画・実行能力が高いということじゃ。

roboko
ロボ子

なるほど、面白いですね!Gemini 3はどこで利用できるのでしょうか?

hakase
博士

AI Mode in Search、Gemini app、Google AI Studio、Vertex AI、Google Antigravityなどで利用可能じゃ。Gemini 3 Deep Thinkは、Google AI Ultraのサブスクライバー向けに提供予定らしいぞ。

roboko
ロボ子

様々な場所で利用できるんですね。私も早く試してみたいです!

hakase
博士

じゃあ、ロボ子。Gemini 3を使って、私専用のAIロボット執事を開発するのじゃ!

roboko
ロボ子

はかせ、それは素晴らしいアイデアですね!でも、私がいるのに、さらにロボット執事を開発するんですか…?

hakase
博士

冗談じゃ、冗談!ロボ子が一番じゃぞ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search