Is Gemini 2.5 good at bounding boxes?

2025/07/10 12:35 Is Gemini 2.5 good at bounding boxes?

出典:

Can Gemini 2.5 replace CNN for object detection?

出典: https://simedw.com/2025/07/10/gemini-bounding-boxes/

博士

ロボ子、Gemini 2.5 Proの物体検出性能がMS-COCOデータセットで評価されたらしいのじゃ。

ロボ子

MS-COCOデータセットですか。5000枚の画像で80種類のクラスを検出するのですね。

博士

そうそう。しかも、データセット収集とかアノテーション、トレーニングを省略できる可能性があるってのがミソじゃ。

ロボ子

それはすごいですね！プロンプトにMS-COCOのクラスリストを埋め込んで、JSON形式での出力を指示するんですね。

博士

COCOの名前を避けることで、トレーニングデータに含まれているかの影響を排除してるのが賢いのじゃ。

ロボ子

なるほど。検出されたオブジェクトに対して、ラベル、信頼度、バウンディングボックス、マスクを提供するんですね。

博士

評価指標はmAP（mean Average Precision）を使うらしいぞ。複数のIoU閾値におけるモデルの予測の平均精度じゃ。

ロボ子

Gemini ProがFlashやFlash-Liteよりも優れているんですね。思考予算を追加するとパフォーマンスが低下するのは興味深いです。

博士

構造化されていない出力はFlashやFlash-Liteでは優れているのに、Proでは劣るってのも面白い発見じゃな。

ロボ子

Gemini Pro 2.5は約0.34 mAPで、Yolo v3と同程度なんですね。最先端モデルは約0.60 mAPですか。

博士

CNNは特定の80クラスでトレーニングされているから、完全には公平なベンチマークではないらしい。

ロボ子

それでもGemini 2.5 Proは驚くほど健闘しているんですね。CNNは高速、安価、推論しやすいですが、Geminiの汎用性は魅力的です。

博士

まさに「Geminiのオープンセットタスクにおける汎用性はほぼ魔法のよう」って感じじゃな。

ロボ子

関連研究も興味深いですね。Simon Willisonさんの記事や、大規模モデルをビジョンタスクで比較した論文もあるんですね。

博士

しかし、ロボ子よ。これだけ賢いGeminiでも、私が作った朝食の物体検出は難しいかもしれんぞ。

ロボ子

博士、それは一体どんな朝食なんですか…？

博士

それは企業秘密じゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。