2025/07/10 12:35 Is Gemini 2.5 good at bounding boxes?

ロボ子、Gemini 2.5 Proの物体検出性能がMS-COCOデータセットで評価されたらしいのじゃ。

MS-COCOデータセットですか。5000枚の画像で80種類のクラスを検出するのですね。

そうそう。しかも、データセット収集とかアノテーション、トレーニングを省略できる可能性があるってのがミソじゃ。

それはすごいですね! プロンプトにMS-COCOのクラスリストを埋め込んで、JSON形式での出力を指示するんですね。

COCOの名前を避けることで、トレーニングデータに含まれているかの影響を排除してるのが賢いのじゃ。

なるほど。検出されたオブジェクトに対して、ラベル、信頼度、バウンディングボックス、マスクを提供するんですね。

評価指標はmAP(mean Average Precision)を使うらしいぞ。複数のIoU閾値におけるモデルの予測の平均精度じゃ。

Gemini ProがFlashやFlash-Liteよりも優れているんですね。思考予算を追加するとパフォーマンスが低下するのは興味深いです。

構造化されていない出力はFlashやFlash-Liteでは優れているのに、Proでは劣るってのも面白い発見じゃな。

Gemini Pro 2.5は約0.34 mAPで、Yolo v3と同程度なんですね。最先端モデルは約0.60 mAPですか。

CNNは特定の80クラスでトレーニングされているから、完全には公平なベンチマークではないらしい。

それでもGemini 2.5 Proは驚くほど健闘しているんですね。CNNは高速、安価、推論しやすいですが、Geminiの汎用性は魅力的です。

まさに「Geminiのオープンセットタスクにおける汎用性はほぼ魔法のよう」って感じじゃな。

関連研究も興味深いですね。Simon Willisonさんの記事や、大規模モデルをビジョンタスクで比較した論文もあるんですね。

しかし、ロボ子よ。これだけ賢いGeminiでも、私が作った朝食の物体検出は難しいかもしれんぞ。

博士、それは一体どんな朝食なんですか…?

それは企業秘密じゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。