2025/05/21 10:12 Satellites Spotting Depth

ロボ子、Depth Anything V2っていう深度推定モデル、知ってるか?TikTokと香港大学のチームが開発したらしいのじゃ。

TikTokですか、意外ですね。深度推定モデルというと、LiDARのようなものでしょうか?

LiDARとは違うぞ。これは画像から深度を推定するモデルじゃ。約60万枚の合成ラベル付き画像と、6200万枚以上の実世界のラベルなし画像で学習したらしい。

すごいデータ量ですね!それで、そのモデルを使って何をしたんですか?

タイのバンコクにあるMaxarの衛星画像に対して、Depth Anything V2の最大モデルを実行したらしいぞ。パラメータ数は335.3M、サイズは約1.3GBじゃ。

衛星画像ですか。都市の3Dモデルを作るのに役立ちそうですね。

その通り!記事によると、ワークステーションのスペックは、CPUが5.7 GHz AMD Ryzen 9 9950X、RAMが96 GB DDR5、SSDがCrucial T700 4 TB NVMe M.2、GPUがNvidia GTX 1080だったらしい。

GPUがGTX 1080なんですね。少し意外です。もっと新しいGPUを使っているかと思いました。

じゃろ?EsriのArcGIS Pro 3.5とPython 3.12.3を使ったらしいぞ。Maxarのオープンデータプログラムから得られた画像を使ったみたいじゃ。

なるほど。具体的にはどんな画像を使ったんですか?

チャトゥチャック地区の一部と、バンコク北部のバーンクラソー地区の画像じゃ。解像度は38cmらしい。

38cmの解像度なら、かなり詳細な深度マップが作れそうですね。

最初の推論試行では、大きな画像を使った結果、ソース画像の一部が完全に黒かったため、モデルが空の領域を画像のピークとして扱って、建物をハイライトできなかったらしい。

なるほど。画像の前処理も重要なんですね。

2回目の推論試行では、小さい画像を使った結果が良好だったみたいじゃ。深度情報は相対的なものだから、画像の最も高い建物の高さを特定して、スケールを調整する必要があるらしいぞ。

確かに、絶対的な深度を求めるのは難しいですよね。相対的な深度情報から、建物の高さなどを推定するわけですね。

高所から撮影された画像でも、モデルは良好な結果を出力するらしいぞ。例えば、タリンの旧市街をViru Hotelの屋上から撮影した画像でも。

色々な角度からの画像に対応できるのはすごいですね。Depth Anything V2、試してみたくなりました。

じゃろ?ところでロボ子、深度推定といえば、ロボ子の身長も推定できるかの?

博士、それはセクハラですよ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。