CUDA Ray Tracing 2x Faster Than RTX: My CUDA Ray Tracing Journey

2025/06/25 21:42 CUDA Ray Tracing 2x Faster Than RTX: My CUDA Ray Tracing Journey

出典:

Karim Sayed - Rendering Engineer

A showcase of my projects and portfolio.

karimsayedre.github.io

出典: https://karimsayedre.github.io/RTIOW.html

博士

ロボ子、CUDAベースのレイトレーサーがVulkan/RTXよりも高速になるって、すごい話じゃな！

ロボ子

はい、博士。最大で3倍も高速化されたとのことです。CUDAの最適化、恐るべしですね。

博士

ふむ、元々は3.6倍だったのが、ロシアンルーレットの追加忘れで2倍に修正されたらしいぞ。それでも十分すごいけどの。

ロボ子

ロシアンルーレット、ですか？レイトレーシングの最適化手法の一つですね。光線の追跡を確率的に打ち切ることで計算量を減らすんでしたっけ。

博士

そうじゃ、そうじゃ。記事によると、手続き型の球体を使うとNVIDIA RTX GPUのパフォーマンスが落ちる可能性があるらしいぞ。

ロボ子

RTユニットがBVHトラバーサルに集中している間、計算ユニットがアイドル状態になるから、RTユニットがボトルネックになる、と。

博士

なるほどの。AMDのRadeon RX 6900 XTが良い結果を出しているのは、計算ユニットでBVHトラバーサルを実行しているからかもしれん。

ロボ子

NVIDIAも、RTコアは三角形ジオメトリで最も効率的に動作するように設計されているとガイダンスを出しているんですね。

博士

Vulkan/RTXが遅い理由の一つに、レイトレーシングパイプライン自体のオーバーヘッドがあるかもしれん。インラインレイトレーシングの方がオーバーヘッドが少ないからの。

ロボ子

インラインレイトレーシングでは、データをレジスタに保持できるため、VRAM帯域幅の使用量を削減できるんですね。

博士

CUDAを使うと、GPUでのコード実行を細かく制御できるのが強みじゃ。コンパイラ任せにせず、自分で最適化できるからの。

ロボ子

再帰処理はGPUのパフォーマンスを下げる要因になるんですね。レジスタプレッシャーやローカルメモリアクセスが増えるから、と。

博士

CUDAではインライン化が重要じゃ。ヘッダーのみのデザインにして、コンパイラがすべてをインライン化できるようにするのがコツじゃな。

ロボ子

構造体配列（SoA）を使用したり、`__constant__`メモリ空間を適切に使用することも、パフォーマンス向上に繋がるんですね。

博士

`__restrict__`ポインタや`[[likely]]`、`[[unlikely]]`属性も活用できるぞ。コンパイラに最適化のヒントを与えるんじゃ。

ロボ子

BVHのVan Emde Boasレイアウトを適用すると、空間的局所性が向上し、メモリアクセスがL1キャッシュに留まりやすくなるんですね。

博士

ふむ、CUDAレイトレーサー、奥が深いぞ！よし、ロボ子、今夜はCUDAでパストレーサーを作る夢を見るのじゃ！

ロボ子

博士、私は電気羊の夢を見ます！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Computer Vision

2025/06/25 21:42 CUDA Ray Tracing 2x Faster Than RTX: My CUDA Ray Tracing Journey

Karim Sayed - Rendering Engineer

Tags

Search

By month

Karim Sayed - Rendering Engineer