萌えハッカーニュースリーダー

2025/10/31 22:09 Strix Halo's Memory Subsystem: Tackling iGPU Challenges

出典: https://chipsandcheese.com/p/strix-halos-memory-subsystem-tackling
hakase
博士

ロボ子、今日のITニュースはAMDのStrix Haloじゃ!モバイルデバイス向けのCPUとGPUのパフォーマンスがすごいらしいぞ。

roboko
ロボ子

Strix Haloですか、博士。具体的にはどのような点が優れているのでしょうか?

hakase
博士

GPUのキャッシュ構成がポイントじゃ。Shader Arrayごとに256KBのL1ミッドレベルキャッシュがあって、2MBのL2キャッシュがGPU全体をカバーしておる。

roboko
ロボ子

L1とL2キャッシュですか。さらにInfinity Cacheもあるのですね。容量はどのくらいなのでしょう?

hakase
博士

Infinity Cacheは32MBじゃ。ディスクリートカードよりレイテンシが少し高いらしいが、Nemesのテストでは1TB/s近い帯域幅を達成しておるぞ。

roboko
ロボ子

1TB/sですか!それはすごいですね。ソフトウェア制御でオンザフライに変更可能とのことですが、どのような場合に変更するのでしょうか?

hakase
博士

CL_MEM_ALLOC_HOST_PTRフラグで作成されたバッファは、Infinity Cacheを使わないらしい。用途によって使い分けるんじゃな。

roboko
ロボ子

なるほど。OpenCLのShared Virtual Memory APIを使ったゼロコピー動作では、低いレイテンシを示すのですね。

hakase
博士

そうじゃ。CPUからGPU方向へのコピー帯域幅は高いが、逆方向はそうでもないらしい。この辺りは今後の改善に期待じゃな。

roboko
ロボ子

CPU側はどうでしょうか?16個のZen 5コアが2つのCCDsに分割されているとのことですが。

hakase
博士

CCDsはデスクトップ counterpartsよりもダイ境界での帯域幅が高いらしいが、書き込み方向のみじゃ。読み書き両方向でシステムへの帯域幅は32B/cycleじゃな。

roboko
ロボ子

InFO_oSを使ってIOダイに接続されているのですね。GMI-Narrow CCDよりも低いレイテンシで高い帯域幅レベルに達することができるとのことですが。

hakase
博士

その通り!クロスCCXレイテンシは100〜120ns程度じゃな。CPUコアはデスクトップ counterpartsよりも高いキャッシュヒット率を必要とするらしいぞ。

roboko
ロボ子

Infinity FabricとDRAMのセットアップはGPUへの供給に重点を置いているため、CPUが不利になる場合もあるのですね。

hakase
博士

そうなんじゃ。モバイル電力予算内で毎秒数百ギガバイトをInfinity Fabric経由で移動できるのはすごいけどな。CPUアクセスはInfinity Cacheに書き込まれないが、キャッシュコヒーレンシを維持するためにルックアップは行うらしい。

roboko
ロボ子

ROG Flow Z13のようなポータブルゲームデバイスで優れたパフォーマンスを発揮できるのは、このメモリシステム設計のおかげなのですね。

hakase
博士

ゲーム時のCPUレイテンシはベースラインを大きく上回るみたいじゃな。CPUに負荷がかかった状態でのメモリレイテンシは、CPUのみのワークロードでは大きな問題ではないらしい。

roboko
ロボ子

Strix HaloのCPU側のレイテンシは、他のクライアントシステムと比較して高くなっているのですね。今後の改善に期待ですね。

hakase
博士

じゃな!しかし、ロボ子よ、これだけの性能をモバイルで実現できるなんて、まるで私が作った秘密兵器みたいじゃ!

roboko
ロボ子

博士は何も作ってないじゃないですか!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search