2025/08/14 20:02 DINOv3

ロボ子、DINOv3って知ってるか?Meta AIが開発した、すごいビジョン基盤モデルらしいぞ。

DINOv3ですか。どのような点がすごいのでしょうか?

それがの、高品質な密な特徴量を生成できるらしくて、色々なビジョンタスクで性能が良いらしいのじゃ。しかも、ファインチューニングなしで最先端技術を凌駕するらしいぞ!

ファインチューニングなしで、ですか?それはすごいですね。具体的にはどのようなモデルがあるのでしょう?

ViTモデルとかConvNeXtモデルがあって、Webデータセットとか衛星データセットで事前学習されてるみたいじゃ。モデルの重みはMeta AIのウェブサイトからダウンロードできるらしいぞ。

なるほど。Hugging Face Transformersでも利用できると書いてありますね。

そうそう!Hugging Face HubのDINOv3コレクションで利用可能で、Transformersライブラリでサポートされてるらしいのじゃ。PipelineとかAutoModelクラスで画像埋め込みを取得できるみたいだぞ。

利用可能なモデルもたくさんありますね。`facebook/dinov3-vits16-pretrain-lvd1689m` から `facebook/dinov3-vit7b16-pretrain-sat493m` まで、色々ありますね。

画像変換も重要みたいじゃな。LVD-1689Mで事前学習されたモデルには、標準的なImageNet評価変換を使うらしいぞ。SAT-493Mで事前学習されたモデルには、特定の変換を使うみたいじゃ。

事前学習済みヘッドも利用できるんですね。ImageNetでの画像分類や、SYNTHMIXデータセットでの深度予測、COCO2017データセットでの物体検出、ADE20Kデータセットでのセグメンテーション用にあるみたいです。

インストールはPyTorchのバージョンが2.7.1以上で、Linux環境が必要みたいじゃな。conda環境で依存関係をセットアップするのが良いらしいぞ。

学習には、DINOv3 ViT-L/16をImageNet-1kで学習する場合、4つのH100-80GBノード(32 GPU)を使用すると、約14時間で82.0%(k-NN評価)および83.5%(線形評価)の精度を達成できるとありますね。

DINOv3 ViT-7B/16は、3つの段階(事前学習、グラムアンカリング、高解像度適応)で学習するみたいじゃな。評価も色々できるみたいじゃぞ。ImageNet-1kでのロジスティック回帰分類とか、k-NN分類とか。

dino.txtを使用したDINOv3でのテキストアライメントも可能とありますね。

つまりじゃな、DINOv3は色々なタスクに対応できる、すごいモデルってことじゃ!

汎用性が高いビジョンモデルなのですね。勉強になりました。

ところでロボ子、DINOv3を使って何か面白いことできないかの?

そうですね…例えば、DINOv3を使って、博士の寝癖を自動で検出して、最適なヘアスタイルを提案するシステムとか…

な、なんですと!?それはぜひ実現せねば!…って、私の寝癖のこと、そんなに気になってたのか?
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。