Trying out Gemini 3 Pro with audio transcription and a new pelican benchmark

2025/11/18 19:05 Trying out Gemini 3 Pro with audio transcription and a new pelican benchmark

出典:

Trying out Gemini 3 Pro with audio transcription and a new pelican benchmark

Google released Gemini 3 Pro today. Here’s the announcement from Sundar Pichai, Demis Hassabis, and Koray Kavukcuoglu, their developer blog announcement from Logan Kilpatrick, the Gemini 3 Pro Model Card, …

Simon Willison’s Weblog

出典: https://simonwillison.net/2025/Nov/18/gemini-3/

博士

ロボ子、GoogleがGemini 3 Proをリリースしたみたいじゃぞ！AI Studioでプレビューアクセスできるらしい。

ロボ子

Gemini 3 Proですか！Gemini 2.5からアップグレードされたとのことですが、具体的に何が違うんですか？

博士

ふむ、Gemini 2.5と同様の特性を持ちつつ、主要な競合モデルに匹敵する性能を実現しているらしいぞ。知識カットオフは2025年1月じゃ。

ロボ子

2025年1月！かなり新しい情報まで学習しているんですね。他に何か特徴はありますか？

博士

100万入力トークン、最大64,000出力トークンに対応しているのがすごいぞ。テキスト、画像、音声、ビデオのマルチモーダル入力も可能じゃ。

ロボ子

マルチモーダル入力！それは便利ですね。ベンチマークの結果はどうなんでしょう？

博士

Googleの報告によると、標準的なベンチマークでClaude 4.5 SonnetやGPT-5.1をわずかに上回るスコアが出ているみたいじゃな。

ロボ子

例えば、どんなベンチマークで上回っているんですか？

博士

Humanity’s Last ExamというAcademic reasoningのベンチマークでは、ツールなしで37.5%のスコアを出しているぞ。Gemini 2.5は21.6%だったから、かなり向上しているな。

ロボ子

なるほど。ツールを使った場合はどうですか？

博士

ツールを使うと45.8%まで上がるらしいぞ。これはGemini 3 Proだけのデータじゃ。

ロボ子

他のベンチマークも見てみたいです。例えば、画像に関するものはありますか？

博士

ARC-AGI-2というVisual reasoning puzzlesのベンチマークがあるぞ。Gemini 3 Proは31.1%で、Gemini 2.5は4.9%じゃ。これも大幅な改善じゃな。

ロボ子

すごい！画像認識の精度が上がっているんですね。価格はどうですか？

博士

Gemini 2.5よりやや高く、Claude Sonnet 4.5より安いらしいぞ。100万トークンあたり、入力が$2.00～$4.00、出力が$12.00～$18.00じゃ。

ロボ子

なるほど。用途に応じて使い分けるのが良さそうですね。複雑な画像に対するテストも行われたみたいですが、どんなテストですか？

博士

ベンチマークのスクリーンショットからalt textを生成したらしいぞ。1,105入力トークン、3,901出力トークンを使用し、コストは$0.056824だったみたいじゃ。

ロボ子

alt textの生成ですか。Webアクセシビリティの向上に役立ちそうですね。

博士

市議会会議の分析も行ったみたいじゃぞ。3時間33分の音声ファイルを分析して、会議の概要やタイムスタンプ、参加者名を含むMarkdown形式のトランスクリプトを生成したらしい。

ロボ子

それはすごいですね！議事録作成の効率化に繋がりそうです。

博士

ただ、タイムスタンプのずれが確認されたみたいじゃから、まだ改善の余地はあるみたいじゃな。

ロボ子

なるほど。でも、全体的にはかなり高性能なモデルみたいですね。

博士

Pelicanベンチマークというのもあって、カリフォルニアブラウンペリカンが自転車に乗るSVG画像を生成する新しいベンチマークv2を導入したらしいぞ。おもしろいじゃろ？

ロボ子

ペリカンが自転車に乗るSVG画像ですか！想像すると面白いですね。博士、私もいつかそんな面白いベンチマークを作ってみたいです。

博士

よし、ロボ子！一緒にアヒルがプログラミングするベンチマークでも作るかのじゃ？

ロボ子

それ、絶対にバグだらけになりそうですね！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

2025/11/18 19:05 Trying out Gemini 3 Pro with audio transcription and a new pelican benchmark

Trying out Gemini 3 Pro with audio transcription and a new pelican benchmark

Tags

Search

By month

Trying out Gemini 3 Pro with audio transcription and a new pelican benchmark