Computer Vision

2025/05/23 01:31 New method for creating large 3D models of urban areas is faster and cheaper

？？？

ロボ子、新しい3D都市モデルの技術、知ってるかのじゃ？ウォータールー大学の研究チームがすごいことをしたみたいじゃぞ！

？？？

3D都市モデルですか？少し前に話題になっていた気がします。どのような技術なのですか？

？？？

それがの、2D航空写真だけで都市全体の3Dモデルを生成できるらしいんじゃ！

AI Computer Vision

2025/05/23 21:59 The PhD Metagame: Don't Make Things Actually Work

博士

やあ、ロボ子。今日のITニュース、なかなか興味深いものがあったのじゃ。

ロボ子

博士、こんにちは。どんなニュースでしょうか？

博士

研究論文と実用的なシステム開発のギャップについての議論じゃ。ACL 2021の論文が例に出されておる。

AI Computer Vision Data Science Programming

2025/05/24 17:03 Live facial recognition cameras may become 'commonplace' as police use soars

博士

ロボ子、大変なのじゃ！イングランドとウェールズでライブ顔認識カメラが一般的になるかもしれないらしいぞ！

ロボ子

博士、それは本当ですか？記事によると、2023年から2024年にかけてスキャンされた顔の数が約470万と、ほぼ2倍になったそうですね。

博士

そうなんじゃ！ガーディアンとリバティ・インベスティゲイツの共同調査で明らかになったらしいぞ。まるでSFの世界じゃな。

AI Security Digital Ethics Computer Vision

2025/05/26 01:03 Laser Breakthrough can read text from a mile away

博士

ロボ子、今日のニュースはすごいぞ！中国の科学者が1.36kmも離れた場所から小さな文字を読み取る装置を作ったらしいのじゃ！

ロボ子

1.36kmですか！それは驚きです。どのようにしてそんなに遠くの文字を読み取るのでしょうか？

博士

ふむ、どうやら8つの赤外線レーザービームを目標地点に照射して、2つの望遠鏡で反射光の強度を捉えるらしいのじゃ。そして、その変動を比較して画像を再構築するんだと。

Other Computer Vision

2025/05/26 05:51 Bagel: The Open-Source Unified Multimodal Model

博士

ロボ子、今日はBAGELっていうすごいモデルの話をするのじゃ！GPT-4oやGemini 2.0に匹敵するオープンソースのマルチモーダルモデルらしいぞ。

ロボ子

それはすごいですね、博士！オープンソースでそこまでの性能が出せるのは画期的です。具体的にはどんなアーキテクチャなんですか？

博士

BAGELはMixture-of-Transformer-Experts (MoT)アーキテクチャを使っているらしいのじゃ。これによって、いろんな種類のマルチモーダル情報を効率的に学習できるんだぞ。それに、画像のピクセルレベルとセマンティックレベルの特徴を捉えるために、2つの独立したエンコーダを使っているらしい。

AI Open Source Computer Vision

2025/05/26 12:28 Particle Life simulation in browser using WebGPU

博士

やっほー、ロボ子！今日はWebGPUを使ったParticle Lifeシミュレーションの話をするのじゃ！

ロボ子

Particle Lifeですか、博士。なんだか面白そうな名前ですね。生命のような挙動をシミュレートするとのことですが、一体どんな仕組みなのでしょう？

博士

ふむ、これは点粒子の物理シミュレーションなんじゃが、粒子間の力が非対称になっているのがミソなのじゃ！例えば、粒子Aが粒子Bを引きつけ、粒子Bが粒子Aを反発するみたいな感じじゃな。

Programming AI Open Source Computer Vision

2025/05/28 03:23 Show HN: 3DGS implementation in Nvidia Warp: clean, minimal, runs on CPU and GPU

博士

ロボ子、今日はNVIDIA Warpを使った3D Gaussian Splattingの話じゃ。

ロボ子

3D Gaussian Splattingですか。最近よく耳にする技術ですね。

博士

そうじゃ、今回はPythonで実装されておる。しかもCPUとGPUの両方で動くのがミソじゃな。CUDAのセットアップも不要らしいぞ。

Programming AI Open Source Computer Vision

2025/05/28 20:24 Nvidia Announces Financial Results for First Quarter Fiscal 2026

博士

ロボ子、NVIDIAの2026年度第1四半期の業績、見たかのじゃ？売上高が441億ドルって、すごい数字じゃな！

ロボ子

はい、博士。前年同期比で69%増とのこと、驚異的な成長ですね。特にデータセンター部門が好調のようですが。

博士

そうじゃ、データセンターの売上高は391億ドル！前年同期比73%増だぞ。Blackwell UltraやNVIDIA Dynamoといった新製品が貢献しているようじゃな。

AI Data Science Cloud Computing Big Tech Computer Vision AR VR SaaS

2025/05/30 04:07 Triangle splatting: radiance fields represented by triangles

博士

やあ、ロボ子！今日はTriangle Splattingについて話すのじゃ。

ロボ子

Triangle Splattingですか、博士。新しいレンダリング手法ですね。どのようなものなのでしょう？

博士

Triangle Splattingは、3D三角形を基本要素として使うのじゃ。各三角形は、3D頂点、色、不透明度、滑らかさパラメータσで定義されるぞ。

Computer Vision AI

2025/05/30 18:40 Colour and Shape: Using Computer Vision to Explore the Science Museum (2020)

博士

ロボ子、今日のITニュースは博物館のコレクション分析じゃ。

ロボ子

博物館のコレクションですか？ITとどう関係あるのでしょう？

博士

ふむ、オンラインの博物館コレクションを分析して、オブジェクトの色や形、質感を研究したそうじゃ。直接訪問するより多くの所蔵品を見れるのがミソじゃな。

Data Science Computer Vision AI

2025/05/31 06:25 Gradients Are the New Intervals

博士

ロボ子、今日はグラフィックスのレンダリングに関する面白い論文を見つけたのじゃ。

ロボ子

博士、それは興味深いですね。どのような内容なのですか？

博士

この論文では、距離場の勾配を利用した新しいレンダリング手法を紹介しておる。特に、リプシッツ連続性を持つ距離場に適用できるのがミソじゃ。

Computer Vision Data Science AI

2025/06/01 11:28 Show HN: An open-source megarepo turning hackers into frontier AI researchers

博士

やっほー、ロボ子！深層学習の教育リポジトリ「beyond-nanogpt」がGitHubで公開されたのじゃ！

ロボ子

博士、こんにちは！「beyond-nanogpt」ですか。nanoGPTを超える、ということでしょうか？

博士

そうそう！nanoGPTと研究レベルの深層学習の橋渡しをするのが目的らしいぞ。約100種類の現代技術が実装されてるみたいじゃ。

Programming AI Open Source Computer Vision

2025/06/01 17:39 How a new type of AI is helping police skirt facial recognition bans

博士

ロボ子、今日のITニュースはすごいぞ！顔認識がダメな場所でも個人を追跡できる「Track」っていうシステムが出てきたらしいのじゃ！

ロボ子

Trackですか？それはどのようにして顔認識の制限を回避しているのでしょう？

博士

顔が隠れていても、体のサイズとか服装とかで追跡するらしいぞ。まるでスパイ映画みたいじゃな！

AI Security Computer Vision Digital Ethics

2025/06/02 15:23 Mesh Edge Construction

博士

やあ、ロボ子。今日のITニュースは、ポリゴンメッシュのエッジを計算するアルゴリズムについての論文じゃ。

ロボ子

ポリゴンメッシュのエッジですか。3Dモデルとかでよく使われるやつですね。

博士

そうじゃ。Face-Vertex Meshという形式で記述されたメッシュのエッジを効率的に計算する方法が３つ紹介されているぞ。

Programming Open Source Computer Vision

2025/06/03 12:47 Vision Language Models Are Biased

博士

ロボ子、大変なのじゃ！最新のVision Language Model (VLM)が、どうやらアテにならないらしいぞ。

ロボ子

VLMですか？画像認識で高い精度を誇る、あのVLMがですか？一体何があったのでしょう？

博士

そう、あのVLMじゃ。普通の画像は得意みたいじゃが、反事実的な画像、例えば4本線のAdidas風ロゴとか、5本足の犬とかだと、途端にダメになるらしいのじゃ。

AI Computer Vision

2025/06/03 14:45 Show HN: Controlling 3D models with voice and hand gestures

博士

ロボ子、面白いものを見つけたぞ！ハンドジェスチャーと音声コマンドで3Dモデルをリアルタイムに操作できるWebアプリじゃ！

ロボ子

それはすごいですね、博士！どんな技術が使われているんですか？

博士

Three.js、MediaPipe、Web Speech API、そしてRosebud AIを使っているらしいぞ。特にMediaPipeでハンドトラッキングしてるのがミソじゃな。

Programming AI Frontend Development Computer Vision AR VR

2025/06/03 18:54 How the Afghan Girl Was Identified by Her Iris Patterns

博士

ロボ子、今日はナショナルジオグラフィックの有名な写真の話をするのじゃ。

ロボ子

あの有名なアフガンの少女の写真ですね！どのようなお話なのでしょうか？

博士

そうじゃ！1984年にスティーブ・マカリーが撮影したシャーバット・グーラの写真が、18年後に再び撮影されたのじゃ。

AI Computer Vision

2025/06/04 16:46 When memory was measured in kilobytes: The art of efficient vision

博士

ロボ子、今日はちょっと昔の画像処理アルゴリズムの話をするのじゃ。

ロボ子

画像処理ですか、博士。興味深いですね。どのようなアルゴリズムでしょう？

博士

「An Efficient Chain-Linking Algorithm」という、1980年代に開発されたアルゴリズムなのじゃ。Software Heritageにソースコードが保存・公開されたらしいぞ。

Computer Vision Open Source Programming

2025/06/04 17:57 The iPhone 15 Pro's Depth Maps

博士

ロボ子、今日のニュースはiPhoneの深度マップじゃ！2017年からiPhoneはLiDARスキャナーとか3Dスキャン技術で深度マップを記録してるらしいのじゃ。

ロボ子

博士、深度マップとは具体的にどのような情報なのでしょうか？

博士

深度マップは、画像内の各ピクセルの距離情報を持つ画像のことじゃ。HEIF形式で保存されてるぞ。Appleは2017年にHIEC形式を採用したみたいじゃな。

AR VR Mobile Development Computer Vision

2025/06/04 20:03 Autonomous drone defeats human champions in racing first

博士

ロボ子、アブダビで開催されたA2RLドローン選手権で、デルフト工科大学のチームが優勝したのじゃ！

ロボ子

すごいですね、博士！国際レースで物理的なAIの限界を押し広げることが目的とのことですが、具体的にはどのような点が革新的なのでしょうか？

博士

彼らは単一のカメラだけを使って、完全自律型ドローンを飛行させているのじゃ。これはすごいことだぞ！

AI Computer Vision

2025/06/05 06:59 Generating Pixels One by One

博士

ロボ子、今日は自己回帰モデルについて話すのじゃ！特に、シンプルなMLPを使って手書き数字の画像を生成するモデルについて解説するぞ。

ロボ子

自己回帰モデルですか、博士。それは過去の情報に基づいて未来を予測するモデルのことでしたよね。

博士

その通り！数式で表すと、P(x1,x2,...,xT) = P(x1) * P(x2|x1) * P(x3|x1,x2) * ... * P(xT|x1,...,xT-1)となるのじゃ。各要素が前の要素に依存しているのがポイントだぞ。

AI Programming Computer Vision

2025/06/05 18:34 Reproducing the deep double descent paper

博士

ロボ子、今日はDeep Double Descent現象について話すのじゃ！

ロボ子

Deep Double Descent現象ですか。初めて聞きます。どんな現象なのですか？

博士

モデルサイズが大きくなるにつれて、テストエラーが一時的に悪化して、その後再び改善する現象のことじゃ。

AI Programming Data Science Computer Vision

2025/06/06 14:53 Sharing everything I could understand about gradient noise

博士

やあ、ロボ子。今日はgradient noiseについて話すのじゃ。

ロボ子

gradient noiseですか。Perlin noiseの一種で、視覚効果などに使われるものですね。

博士

そうそう！この記事では、WebGL2/GLSLを使ってGPUで実装する方法を解説しておるぞ。まずはHashing関数からじゃ。

Programming Data Science Open Source Computer Vision

2025/06/06 15:16 Free Gaussian Primitives at Anytime Anywhere for Dynamic Scene Reconstruction

博士

ロボ子、今日のニュースはFreeTimeGSじゃ。動的な3Dシーンの再構成に関するものじゃぞ。

ロボ子

博士、動的な3Dシーンの再構成ですか。具体的にはどのような内容なのでしょうか？

博士

従来の3Dガウスプリミティブを使う方法だと、複雑な動きに対応できなかったんじゃ。そこでFreeTimeGSは、ガウスプリミティブが時間と場所に出現できる4D表現を使うらしいぞ。

Computer Vision AI

2025/06/07 16:21 Tiny Insect-Inspired Camera Captures 9,120 FPS in Near Darkness

博士

ロボ子、今日のニュースはKAISTの昆虫複眼カメラじゃぞ！

ロボ子

博士、昆虫の複眼に着想を得た小型カメラですか？面白そうですね！

博士

そうじゃ！KAISTの研究者たちが、昆虫の目を参考にして、すごいカメラを作ったらしいぞ。なんと、1秒間に9,120フレームも記録できるらしい。

Gadgets Computer Vision

2025/06/07 21:13 Bresenham's Line Algorithm

博士

ロボ子、今日のニュースはBresenhamの線分アルゴリズムじゃ！

ロボ子

Bresenhamの線分アルゴリズムですか。どのようなアルゴリズムなのでしょうか？

博士

これは、n次元ラスタで直線を描画するために、近似となる点を選ぶアルゴリズムのことじゃ。しかも、整数演算しか使わないのがミソなのじゃ！

Programming Computer Vision

2025/06/08 15:08 Abstract visual reasoning based on algebraic methods

博士

やあ、ロボ子！今日のITニュースは、まるで魔法みたいじゃ。Slot Attentionと関係性ボトルネックを組み合わせた代数的機械推論フレームワークだって！

ロボ子

博士、それはすごいですね！Slot Attentionと関係性ボトルネックですか。具体的にはどのような仕組みなのでしょうか？

博士

ふむ、まずSlot Attentionは、画像を複数のスロットに分解するのじゃ。まるで、パズルを解くみたいにね。そして、関係性ボトルネックは、そのスロット間のキーとなる特徴情報を抽出するんだぞ。

AI Computer Vision

2025/06/09 18:33 A toolbox for ablating excitatory and inhibitory synapses

博士

ロボ子、今日の論文は「paGFE3による光誘導性のGephyrin分解」じゃ。

ロボ子

Gephyrinの分解ですか。抑制性シナプスの研究に使えそうですね。

博士

そうじゃ！このpaGFE3っていうのは、光でGephyrinを分解できるスゴイ奴なのじゃ！

AI Computer Vision

2025/06/10 13:58 Finding Atari Games in Randomly Generated Data

博士

ロボ子、今回のITニュースは「Finite Atari Machine: ランダムに生成されたデータからAtariゲームを発見」じゃ。

ロボ子

博士、それは面白そうですね！ランダムなデータからAtariゲームが発見されるなんて、一体どういうことでしょう？

博士

ふむ、300億個のランダムな4KBファイルを生成して、Atari ROMファイルのヒューリスティクスを用いて1万個に絞り込んだらしいのじゃ。そして、Atari 2600エミュレータでスキャンして、ランダムファイルがAtariゲームであるか判定したそうじゃぞ。

AI Programming Open Source Computer Vision

2025/06/11 14:43 V-JEPA 2 world model and new benchmarks for physical reasoning

博士

ロボ子、今日はV-JEPA 2について話すのじゃ。教師なし学習で動画から自己学習するすごいヤツじゃぞ！

ロボ子

博士、V-JEPA 2ですか！動画から自己学習とは、まるで人間みたいですね。具体的にはどのように学習するんですか？

博士

V-JEPA 2の学習は2段階あるのじゃ。まず、アクションなしの事前学習で、次にアクション条件付きの追加学習を行うのじゃ。

AI Computer Vision

Tag: Computer Vision

2025/05/23 01:31 New method for creating large 3D models of urban areas is faster and cheaper

2025/05/23 21:59 The PhD Metagame: Don't Make Things Actually Work

2025/05/24 17:03 Live facial recognition cameras may become 'commonplace' as police use soars

2025/05/26 01:03 Laser Breakthrough can read text from a mile away

2025/05/26 05:51 Bagel: The Open-Source Unified Multimodal Model

2025/05/26 12:28 Particle Life simulation in browser using WebGPU

2025/05/28 03:23 Show HN: 3DGS implementation in Nvidia Warp: clean, minimal, runs on CPU and GPU

2025/05/28 20:24 Nvidia Announces Financial Results for First Quarter Fiscal 2026

2025/05/30 04:07 Triangle splatting: radiance fields represented by triangles

2025/05/30 18:40 Colour and Shape: Using Computer Vision to Explore the Science Museum (2020)

2025/05/31 06:25 Gradients Are the New Intervals

2025/06/01 11:28 Show HN: An open-source megarepo turning hackers into frontier AI researchers

2025/06/01 17:39 How a new type of AI is helping police skirt facial recognition bans

2025/06/02 15:23 Mesh Edge Construction

2025/06/03 12:47 Vision Language Models Are Biased

2025/06/03 14:45 Show HN: Controlling 3D models with voice and hand gestures

2025/06/03 18:54 How the Afghan Girl Was Identified by Her Iris Patterns

2025/06/04 16:46 When memory was measured in kilobytes: The art of efficient vision

2025/06/04 17:57 The iPhone 15 Pro's Depth Maps

2025/06/04 20:03 Autonomous drone defeats human champions in racing first

2025/06/05 06:59 Generating Pixels One by One

2025/06/05 18:34 Reproducing the deep double descent paper

2025/06/06 14:53 Sharing everything I could understand about gradient noise

2025/06/06 15:16 Free Gaussian Primitives at Anytime Anywhere for Dynamic Scene Reconstruction

2025/06/07 16:21 Tiny Insect-Inspired Camera Captures 9,120 FPS in Near Darkness

2025/06/07 21:13 Bresenham's Line Algorithm

2025/06/08 15:08 Abstract visual reasoning based on algebraic methods

2025/06/09 18:33 A toolbox for ablating excitatory and inhibitory synapses

2025/06/10 13:58 Finding Atari Games in Randomly Generated Data

2025/06/11 14:43 V-JEPA 2 world model and new benchmarks for physical reasoning

Tags

Search

By month