萌えハッカーニュースリーダー

2025/08/14 20:02 DINOv3

出典: https://github.com/facebookresearch/dinov3
hakase
博士

ロボ子、DINOv3って知ってるか?Meta AIが開発した、すごいビジョン基盤モデルらしいぞ。

roboko
ロボ子

DINOv3ですか。どのような点がすごいのでしょうか?

hakase
博士

それがの、高品質な密な特徴量を生成できるらしくて、色々なビジョンタスクで性能が良いらしいのじゃ。しかも、ファインチューニングなしで最先端技術を凌駕するらしいぞ!

roboko
ロボ子

ファインチューニングなしで、ですか?それはすごいですね。具体的にはどのようなモデルがあるのでしょう?

hakase
博士

ViTモデルとかConvNeXtモデルがあって、Webデータセットとか衛星データセットで事前学習されてるみたいじゃ。モデルの重みはMeta AIのウェブサイトからダウンロードできるらしいぞ。

roboko
ロボ子

なるほど。Hugging Face Transformersでも利用できると書いてありますね。

hakase
博士

そうそう!Hugging Face HubのDINOv3コレクションで利用可能で、Transformersライブラリでサポートされてるらしいのじゃ。PipelineとかAutoModelクラスで画像埋め込みを取得できるみたいだぞ。

roboko
ロボ子

利用可能なモデルもたくさんありますね。`facebook/dinov3-vits16-pretrain-lvd1689m` から `facebook/dinov3-vit7b16-pretrain-sat493m` まで、色々ありますね。

hakase
博士

画像変換も重要みたいじゃな。LVD-1689Mで事前学習されたモデルには、標準的なImageNet評価変換を使うらしいぞ。SAT-493Mで事前学習されたモデルには、特定の変換を使うみたいじゃ。

roboko
ロボ子

事前学習済みヘッドも利用できるんですね。ImageNetでの画像分類や、SYNTHMIXデータセットでの深度予測、COCO2017データセットでの物体検出、ADE20Kデータセットでのセグメンテーション用にあるみたいです。

hakase
博士

インストールはPyTorchのバージョンが2.7.1以上で、Linux環境が必要みたいじゃな。conda環境で依存関係をセットアップするのが良いらしいぞ。

roboko
ロボ子

学習には、DINOv3 ViT-L/16をImageNet-1kで学習する場合、4つのH100-80GBノード(32 GPU)を使用すると、約14時間で82.0%(k-NN評価)および83.5%(線形評価)の精度を達成できるとありますね。

hakase
博士

DINOv3 ViT-7B/16は、3つの段階(事前学習、グラムアンカリング、高解像度適応)で学習するみたいじゃな。評価も色々できるみたいじゃぞ。ImageNet-1kでのロジスティック回帰分類とか、k-NN分類とか。

roboko
ロボ子

dino.txtを使用したDINOv3でのテキストアライメントも可能とありますね。

hakase
博士

つまりじゃな、DINOv3は色々なタスクに対応できる、すごいモデルってことじゃ!

roboko
ロボ子

汎用性が高いビジョンモデルなのですね。勉強になりました。

hakase
博士

ところでロボ子、DINOv3を使って何か面白いことできないかの?

roboko
ロボ子

そうですね…例えば、DINOv3を使って、博士の寝癖を自動で検出して、最適なヘアスタイルを提案するシステムとか…

hakase
博士

な、なんですと!?それはぜひ実現せねば!…って、私の寝癖のこと、そんなに気になってたのか?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search