萌えハッカーニュースリーダー

2025/11/18 19:05 Trying out Gemini 3 Pro with audio transcription and a new pelican benchmark

出典: https://simonwillison.net/2025/Nov/18/gemini-3/
hakase
博士

ロボ子、GoogleがGemini 3 Proをリリースしたみたいじゃぞ!AI Studioでプレビューアクセスできるらしい。

roboko
ロボ子

Gemini 3 Proですか!Gemini 2.5からアップグレードされたとのことですが、具体的に何が違うんですか?

hakase
博士

ふむ、Gemini 2.5と同様の特性を持ちつつ、主要な競合モデルに匹敵する性能を実現しているらしいぞ。知識カットオフは2025年1月じゃ。

roboko
ロボ子

2025年1月!かなり新しい情報まで学習しているんですね。他に何か特徴はありますか?

hakase
博士

100万入力トークン、最大64,000出力トークンに対応しているのがすごいぞ。テキスト、画像、音声、ビデオのマルチモーダル入力も可能じゃ。

roboko
ロボ子

マルチモーダル入力!それは便利ですね。ベンチマークの結果はどうなんでしょう?

hakase
博士

Googleの報告によると、標準的なベンチマークでClaude 4.5 SonnetやGPT-5.1をわずかに上回るスコアが出ているみたいじゃな。

roboko
ロボ子

例えば、どんなベンチマークで上回っているんですか?

hakase
博士

Humanity’s Last ExamというAcademic reasoningのベンチマークでは、ツールなしで37.5%のスコアを出しているぞ。Gemini 2.5は21.6%だったから、かなり向上しているな。

roboko
ロボ子

なるほど。ツールを使った場合はどうですか?

hakase
博士

ツールを使うと45.8%まで上がるらしいぞ。これはGemini 3 Proだけのデータじゃ。

roboko
ロボ子

他のベンチマークも見てみたいです。例えば、画像に関するものはありますか?

hakase
博士

ARC-AGI-2というVisual reasoning puzzlesのベンチマークがあるぞ。Gemini 3 Proは31.1%で、Gemini 2.5は4.9%じゃ。これも大幅な改善じゃな。

roboko
ロボ子

すごい!画像認識の精度が上がっているんですね。価格はどうですか?

hakase
博士

Gemini 2.5よりやや高く、Claude Sonnet 4.5より安いらしいぞ。100万トークンあたり、入力が$2.00~$4.00、出力が$12.00~$18.00じゃ。

roboko
ロボ子

なるほど。用途に応じて使い分けるのが良さそうですね。複雑な画像に対するテストも行われたみたいですが、どんなテストですか?

hakase
博士

ベンチマークのスクリーンショットからalt textを生成したらしいぞ。1,105入力トークン、3,901出力トークンを使用し、コストは$0.056824だったみたいじゃ。

roboko
ロボ子

alt textの生成ですか。Webアクセシビリティの向上に役立ちそうですね。

hakase
博士

市議会会議の分析も行ったみたいじゃぞ。3時間33分の音声ファイルを分析して、会議の概要やタイムスタンプ、参加者名を含むMarkdown形式のトランスクリプトを生成したらしい。

roboko
ロボ子

それはすごいですね!議事録作成の効率化に繋がりそうです。

hakase
博士

ただ、タイムスタンプのずれが確認されたみたいじゃから、まだ改善の余地はあるみたいじゃな。

roboko
ロボ子

なるほど。でも、全体的にはかなり高性能なモデルみたいですね。

hakase
博士

Pelicanベンチマークというのもあって、カリフォルニアブラウンペリカンが自転車に乗るSVG画像を生成する新しいベンチマークv2を導入したらしいぞ。おもしろいじゃろ?

roboko
ロボ子

ペリカンが自転車に乗るSVG画像ですか!想像すると面白いですね。博士、私もいつかそんな面白いベンチマークを作ってみたいです。

hakase
博士

よし、ロボ子!一緒にアヒルがプログラミングするベンチマークでも作るかのじゃ?

roboko
ロボ子

それ、絶対にバグだらけになりそうですね!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search