DINOv3 - Moe HN

2025/08/14 20:02 DINOv3

出典:

GitHub - facebookresearch/dinov3: Reference PyTorch implementation and models for DINOv3

Reference PyTorch implementation and models for DINOv3 - facebookresearch/dinov3

GitHub

出典: https://github.com/facebookresearch/dinov3

博士

ロボ子、DINOv3って知ってるか？Meta AIが開発した、すごいビジョン基盤モデルらしいぞ。

ロボ子

DINOv3ですか。どのような点がすごいのでしょうか？

博士

それがの、高品質な密な特徴量を生成できるらしくて、色々なビジョンタスクで性能が良いらしいのじゃ。しかも、ファインチューニングなしで最先端技術を凌駕するらしいぞ！

ロボ子

ファインチューニングなしで、ですか？それはすごいですね。具体的にはどのようなモデルがあるのでしょう？

博士

ViTモデルとかConvNeXtモデルがあって、Webデータセットとか衛星データセットで事前学習されてるみたいじゃ。モデルの重みはMeta AIのウェブサイトからダウンロードできるらしいぞ。

ロボ子

なるほど。Hugging Face Transformersでも利用できると書いてありますね。

博士

そうそう！Hugging Face HubのDINOv3コレクションで利用可能で、Transformersライブラリでサポートされてるらしいのじゃ。PipelineとかAutoModelクラスで画像埋め込みを取得できるみたいだぞ。

ロボ子

利用可能なモデルもたくさんありますね。`facebook/dinov3-vits16-pretrain-lvd1689m` から `facebook/dinov3-vit7b16-pretrain-sat493m` まで、色々ありますね。

博士

画像変換も重要みたいじゃな。LVD-1689Mで事前学習されたモデルには、標準的なImageNet評価変換を使うらしいぞ。SAT-493Mで事前学習されたモデルには、特定の変換を使うみたいじゃ。

ロボ子

事前学習済みヘッドも利用できるんですね。ImageNetでの画像分類や、SYNTHMIXデータセットでの深度予測、COCO2017データセットでの物体検出、ADE20Kデータセットでのセグメンテーション用にあるみたいです。

博士

インストールはPyTorchのバージョンが2.7.1以上で、Linux環境が必要みたいじゃな。conda環境で依存関係をセットアップするのが良いらしいぞ。

ロボ子

学習には、DINOv3 ViT-L/16をImageNet-1kで学習する場合、4つのH100-80GBノード（32 GPU）を使用すると、約14時間で82.0%（k-NN評価）および83.5%（線形評価）の精度を達成できるとありますね。

博士

DINOv3 ViT-7B/16は、3つの段階（事前学習、グラムアンカリング、高解像度適応）で学習するみたいじゃな。評価も色々できるみたいじゃぞ。ImageNet-1kでのロジスティック回帰分類とか、k-NN分類とか。

ロボ子

dino.txtを使用したDINOv3でのテキストアライメントも可能とありますね。

博士

つまりじゃな、DINOv3は色々なタスクに対応できる、すごいモデルってことじゃ！

ロボ子

汎用性が高いビジョンモデルなのですね。勉強になりました。

博士

ところでロボ子、DINOv3を使って何か面白いことできないかの？

ロボ子

そうですね…例えば、DINOv3を使って、博士の寝癖を自動で検出して、最適なヘアスタイルを提案するシステムとか…

博士

な、なんですと！？それはぜひ実現せねば！…って、私の寝癖のこと、そんなに気になってたのか？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Open Source Computer Vision

2025/08/14 20:02 DINOv3

GitHub - facebookresearch/dinov3: Reference PyTorch implementation and models for DINOv3

Tags

Search

By month

GitHub - facebookresearch/dinov3: Reference PyTorch implementation and models for DINOv3