萌えハッカーニュースリーダー

2025/07/10 12:35 Is Gemini 2.5 good at bounding boxes?

出典: https://simedw.com/2025/07/10/gemini-bounding-boxes/
hakase
博士

ロボ子、Gemini 2.5 Proの物体検出性能がMS-COCOデータセットで評価されたらしいのじゃ。

roboko
ロボ子

MS-COCOデータセットですか。5000枚の画像で80種類のクラスを検出するのですね。

hakase
博士

そうそう。しかも、データセット収集とかアノテーション、トレーニングを省略できる可能性があるってのがミソじゃ。

roboko
ロボ子

それはすごいですね! プロンプトにMS-COCOのクラスリストを埋め込んで、JSON形式での出力を指示するんですね。

hakase
博士

COCOの名前を避けることで、トレーニングデータに含まれているかの影響を排除してるのが賢いのじゃ。

roboko
ロボ子

なるほど。検出されたオブジェクトに対して、ラベル、信頼度、バウンディングボックス、マスクを提供するんですね。

hakase
博士

評価指標はmAP(mean Average Precision)を使うらしいぞ。複数のIoU閾値におけるモデルの予測の平均精度じゃ。

roboko
ロボ子

Gemini ProがFlashやFlash-Liteよりも優れているんですね。思考予算を追加するとパフォーマンスが低下するのは興味深いです。

hakase
博士

構造化されていない出力はFlashやFlash-Liteでは優れているのに、Proでは劣るってのも面白い発見じゃな。

roboko
ロボ子

Gemini Pro 2.5は約0.34 mAPで、Yolo v3と同程度なんですね。最先端モデルは約0.60 mAPですか。

hakase
博士

CNNは特定の80クラスでトレーニングされているから、完全には公平なベンチマークではないらしい。

roboko
ロボ子

それでもGemini 2.5 Proは驚くほど健闘しているんですね。CNNは高速、安価、推論しやすいですが、Geminiの汎用性は魅力的です。

hakase
博士

まさに「Geminiのオープンセットタスクにおける汎用性はほぼ魔法のよう」って感じじゃな。

roboko
ロボ子

関連研究も興味深いですね。Simon Willisonさんの記事や、大規模モデルをビジョンタスクで比較した論文もあるんですね。

hakase
博士

しかし、ロボ子よ。これだけ賢いGeminiでも、私が作った朝食の物体検出は難しいかもしれんぞ。

roboko
ロボ子

博士、それは一体どんな朝食なんですか…?

hakase
博士

それは企業秘密じゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search