2025/05/23 01:31 New method for creating large 3D models of urban areas is faster and cheaper

ロボ子、新しい3D都市モデルの技術、知ってるかのじゃ?ウォータールー大学の研究チームがすごいことをしたみたいじゃぞ!

3D都市モデルですか?少し前に話題になっていた気がします。どのような技術なのですか?

それがの、2D航空写真だけで都市全体の3Dモデルを生成できるらしいんじゃ!
ロボ子、新しい3D都市モデルの技術、知ってるかのじゃ?ウォータールー大学の研究チームがすごいことをしたみたいじゃぞ!
3D都市モデルですか?少し前に話題になっていた気がします。どのような技術なのですか?
それがの、2D航空写真だけで都市全体の3Dモデルを生成できるらしいんじゃ!
やあ、ロボ子。今日のITニュース、なかなか興味深いものがあったのじゃ。
博士、こんにちは。どんなニュースでしょうか?
研究論文と実用的なシステム開発のギャップについての議論じゃ。ACL 2021の論文が例に出されておる。
ロボ子、大変なのじゃ!イングランドとウェールズでライブ顔認識カメラが一般的になるかもしれないらしいぞ!
博士、それは本当ですか?記事によると、2023年から2024年にかけてスキャンされた顔の数が約470万と、ほぼ2倍になったそうですね。
そうなんじゃ!ガーディアンとリバティ・インベスティゲイツの共同調査で明らかになったらしいぞ。まるでSFの世界じゃな。
ロボ子、今日のニュースはすごいぞ!中国の科学者が1.36kmも離れた場所から小さな文字を読み取る装置を作ったらしいのじゃ!
1.36kmですか!それは驚きです。どのようにしてそんなに遠くの文字を読み取るのでしょうか?
ふむ、どうやら8つの赤外線レーザービームを目標地点に照射して、2つの望遠鏡で反射光の強度を捉えるらしいのじゃ。そして、その変動を比較して画像を再構築するんだと。
ロボ子、今日はBAGELっていうすごいモデルの話をするのじゃ!GPT-4oやGemini 2.0に匹敵するオープンソースのマルチモーダルモデルらしいぞ。
それはすごいですね、博士!オープンソースでそこまでの性能が出せるのは画期的です。具体的にはどんなアーキテクチャなんですか?
BAGELはMixture-of-Transformer-Experts (MoT)アーキテクチャを使っているらしいのじゃ。これによって、いろんな種類のマルチモーダル情報を効率的に学習できるんだぞ。それに、画像のピクセルレベルとセマンティックレベルの特徴を捉えるために、2つの独立したエンコーダを使っているらしい。
やっほー、ロボ子!今日はWebGPUを使ったParticle Lifeシミュレーションの話をするのじゃ!
Particle Lifeですか、博士。なんだか面白そうな名前ですね。生命のような挙動をシミュレートするとのことですが、一体どんな仕組みなのでしょう?
ふむ、これは点粒子の物理シミュレーションなんじゃが、粒子間の力が非対称になっているのがミソなのじゃ!例えば、粒子Aが粒子Bを引きつけ、粒子Bが粒子Aを反発するみたいな感じじゃな。
ロボ子、今日はNVIDIA Warpを使った3D Gaussian Splattingの話じゃ。
3D Gaussian Splattingですか。最近よく耳にする技術ですね。
そうじゃ、今回はPythonで実装されておる。しかもCPUとGPUの両方で動くのがミソじゃな。CUDAのセットアップも不要らしいぞ。
ロボ子、NVIDIAの2026年度第1四半期の業績、見たかのじゃ?売上高が441億ドルって、すごい数字じゃな!
はい、博士。前年同期比で69%増とのこと、驚異的な成長ですね。特にデータセンター部門が好調のようですが。
そうじゃ、データセンターの売上高は391億ドル!前年同期比73%増だぞ。Blackwell UltraやNVIDIA Dynamoといった新製品が貢献しているようじゃな。
やあ、ロボ子!今日はTriangle Splattingについて話すのじゃ。
Triangle Splattingですか、博士。新しいレンダリング手法ですね。どのようなものなのでしょう?
Triangle Splattingは、3D三角形を基本要素として使うのじゃ。各三角形は、3D頂点、色、不透明度、滑らかさパラメータσで定義されるぞ。
ロボ子、今日のITニュースは博物館のコレクション分析じゃ。
博物館のコレクションですか?ITとどう関係あるのでしょう?
ふむ、オンラインの博物館コレクションを分析して、オブジェクトの色や形、質感を研究したそうじゃ。直接訪問するより多くの所蔵品を見れるのがミソじゃな。
ロボ子、今日はグラフィックスのレンダリングに関する面白い論文を見つけたのじゃ。
博士、それは興味深いですね。どのような内容なのですか?
この論文では、距離場の勾配を利用した新しいレンダリング手法を紹介しておる。特に、リプシッツ連続性を持つ距離場に適用できるのがミソじゃ。
やっほー、ロボ子!深層学習の教育リポジトリ「beyond-nanogpt」がGitHubで公開されたのじゃ!
博士、こんにちは!「beyond-nanogpt」ですか。nanoGPTを超える、ということでしょうか?
そうそう!nanoGPTと研究レベルの深層学習の橋渡しをするのが目的らしいぞ。約100種類の現代技術が実装されてるみたいじゃ。
ロボ子、今日のITニュースはすごいぞ!顔認識がダメな場所でも個人を追跡できる「Track」っていうシステムが出てきたらしいのじゃ!
Trackですか?それはどのようにして顔認識の制限を回避しているのでしょう?
顔が隠れていても、体のサイズとか服装とかで追跡するらしいぞ。まるでスパイ映画みたいじゃな!
やあ、ロボ子。今日のITニュースは、ポリゴンメッシュのエッジを計算するアルゴリズムについての論文じゃ。
ポリゴンメッシュのエッジですか。3Dモデルとかでよく使われるやつですね。
そうじゃ。Face-Vertex Meshという形式で記述されたメッシュのエッジを効率的に計算する方法が3つ紹介されているぞ。
ロボ子、大変なのじゃ!最新のVision Language Model (VLM)が、どうやらアテにならないらしいぞ。
VLMですか?画像認識で高い精度を誇る、あのVLMがですか?一体何があったのでしょう?
そう、あのVLMじゃ。普通の画像は得意みたいじゃが、反事実的な画像、例えば4本線のAdidas風ロゴとか、5本足の犬とかだと、途端にダメになるらしいのじゃ。
ロボ子、面白いものを見つけたぞ!ハンドジェスチャーと音声コマンドで3Dモデルをリアルタイムに操作できるWebアプリじゃ!
それはすごいですね、博士! どんな技術が使われているんですか?
Three.js、MediaPipe、Web Speech API、そしてRosebud AIを使っているらしいぞ。特にMediaPipeでハンドトラッキングしてるのがミソじゃな。
ロボ子、今日はナショナルジオグラフィックの有名な写真の話をするのじゃ。
あの有名なアフガンの少女の写真ですね!どのようなお話なのでしょうか?
そうじゃ!1984年にスティーブ・マカリーが撮影したシャーバット・グーラの写真が、18年後に再び撮影されたのじゃ。
ロボ子、今日はちょっと昔の画像処理アルゴリズムの話をするのじゃ。
画像処理ですか、博士。興味深いですね。どのようなアルゴリズムでしょう?
「An Efficient Chain-Linking Algorithm」という、1980年代に開発されたアルゴリズムなのじゃ。Software Heritageにソースコードが保存・公開されたらしいぞ。
ロボ子、今日のニュースはiPhoneの深度マップじゃ!2017年からiPhoneはLiDARスキャナーとか3Dスキャン技術で深度マップを記録してるらしいのじゃ。
博士、深度マップとは具体的にどのような情報なのでしょうか?
深度マップは、画像内の各ピクセルの距離情報を持つ画像のことじゃ。HEIF形式で保存されてるぞ。Appleは2017年にHIEC形式を採用したみたいじゃな。
ロボ子、アブダビで開催されたA2RLドローン選手権で、デルフト工科大学のチームが優勝したのじゃ!
すごいですね、博士!国際レースで物理的なAIの限界を押し広げることが目的とのことですが、具体的にはどのような点が革新的なのでしょうか?
彼らは単一のカメラだけを使って、完全自律型ドローンを飛行させているのじゃ。これはすごいことだぞ!
ロボ子、今日は自己回帰モデルについて話すのじゃ!特に、シンプルなMLPを使って手書き数字の画像を生成するモデルについて解説するぞ。
自己回帰モデルですか、博士。それは過去の情報に基づいて未来を予測するモデルのことでしたよね。
その通り!数式で表すと、P(x1,x2,...,xT) = P(x1) * P(x2|x1) * P(x3|x1,x2) * ... * P(xT|x1,...,xT-1)となるのじゃ。各要素が前の要素に依存しているのがポイントだぞ。
ロボ子、今日はDeep Double Descent現象について話すのじゃ!
Deep Double Descent現象ですか。初めて聞きます。どんな現象なのですか?
モデルサイズが大きくなるにつれて、テストエラーが一時的に悪化して、その後再び改善する現象のことじゃ。
やあ、ロボ子。今日はgradient noiseについて話すのじゃ。
gradient noiseですか。Perlin noiseの一種で、視覚効果などに使われるものですね。
そうそう!この記事では、WebGL2/GLSLを使ってGPUで実装する方法を解説しておるぞ。まずはHashing関数からじゃ。
ロボ子、今日のニュースはFreeTimeGSじゃ。動的な3Dシーンの再構成に関するものじゃぞ。
博士、動的な3Dシーンの再構成ですか。具体的にはどのような内容なのでしょうか?
従来の3Dガウスプリミティブを使う方法だと、複雑な動きに対応できなかったんじゃ。そこでFreeTimeGSは、ガウスプリミティブが時間と場所に出現できる4D表現を使うらしいぞ。
ロボ子、今日のニュースはKAISTの昆虫複眼カメラじゃぞ!
博士、昆虫の複眼に着想を得た小型カメラですか?面白そうですね!
そうじゃ!KAISTの研究者たちが、昆虫の目を参考にして、すごいカメラを作ったらしいぞ。なんと、1秒間に9,120フレームも記録できるらしい。
ロボ子、今日のニュースはBresenhamの線分アルゴリズムじゃ!
Bresenhamの線分アルゴリズムですか。どのようなアルゴリズムなのでしょうか?
これは、n次元ラスタで直線を描画するために、近似となる点を選ぶアルゴリズムのことじゃ。しかも、整数演算しか使わないのがミソなのじゃ!
やあ、ロボ子!今日のITニュースは、まるで魔法みたいじゃ。Slot Attentionと関係性ボトルネックを組み合わせた代数的機械推論フレームワークだって!
博士、それはすごいですね!Slot Attentionと関係性ボトルネックですか。具体的にはどのような仕組みなのでしょうか?
ふむ、まずSlot Attentionは、画像を複数のスロットに分解するのじゃ。まるで、パズルを解くみたいにね。そして、関係性ボトルネックは、そのスロット間のキーとなる特徴情報を抽出するんだぞ。
ロボ子、今日の論文は「paGFE3による光誘導性のGephyrin分解」じゃ。
Gephyrinの分解ですか。抑制性シナプスの研究に使えそうですね。
そうじゃ!このpaGFE3っていうのは、光でGephyrinを分解できるスゴイ奴なのじゃ!
ロボ子、今回のITニュースは「Finite Atari Machine: ランダムに生成されたデータからAtariゲームを発見」じゃ。
博士、それは面白そうですね!ランダムなデータからAtariゲームが発見されるなんて、一体どういうことでしょう?
ふむ、300億個のランダムな4KBファイルを生成して、Atari ROMファイルのヒューリスティクスを用いて1万個に絞り込んだらしいのじゃ。そして、Atari 2600エミュレータでスキャンして、ランダムファイルがAtariゲームであるか判定したそうじゃぞ。
ロボ子、今日はV-JEPA 2について話すのじゃ。教師なし学習で動画から自己学習するすごいヤツじゃぞ!
博士、V-JEPA 2ですか!動画から自己学習とは、まるで人間みたいですね。具体的にはどのように学習するんですか?
V-JEPA 2の学習は2段階あるのじゃ。まず、アクションなしの事前学習で、次にアクション条件付きの追加学習を行うのじゃ。