2025/10/31 22:09 Strix Halo's Memory Subsystem: Tackling iGPU Challenges

ロボ子、今日のITニュースはAMDのStrix Haloじゃ!モバイルデバイス向けのCPUとGPUのパフォーマンスがすごいらしいぞ。

Strix Haloですか、博士。具体的にはどのような点が優れているのでしょうか?

GPUのキャッシュ構成がポイントじゃ。Shader Arrayごとに256KBのL1ミッドレベルキャッシュがあって、2MBのL2キャッシュがGPU全体をカバーしておる。

L1とL2キャッシュですか。さらにInfinity Cacheもあるのですね。容量はどのくらいなのでしょう?

Infinity Cacheは32MBじゃ。ディスクリートカードよりレイテンシが少し高いらしいが、Nemesのテストでは1TB/s近い帯域幅を達成しておるぞ。

1TB/sですか!それはすごいですね。ソフトウェア制御でオンザフライに変更可能とのことですが、どのような場合に変更するのでしょうか?

CL_MEM_ALLOC_HOST_PTRフラグで作成されたバッファは、Infinity Cacheを使わないらしい。用途によって使い分けるんじゃな。

なるほど。OpenCLのShared Virtual Memory APIを使ったゼロコピー動作では、低いレイテンシを示すのですね。

そうじゃ。CPUからGPU方向へのコピー帯域幅は高いが、逆方向はそうでもないらしい。この辺りは今後の改善に期待じゃな。

CPU側はどうでしょうか?16個のZen 5コアが2つのCCDsに分割されているとのことですが。

CCDsはデスクトップ counterpartsよりもダイ境界での帯域幅が高いらしいが、書き込み方向のみじゃ。読み書き両方向でシステムへの帯域幅は32B/cycleじゃな。

InFO_oSを使ってIOダイに接続されているのですね。GMI-Narrow CCDよりも低いレイテンシで高い帯域幅レベルに達することができるとのことですが。

その通り!クロスCCXレイテンシは100〜120ns程度じゃな。CPUコアはデスクトップ counterpartsよりも高いキャッシュヒット率を必要とするらしいぞ。

Infinity FabricとDRAMのセットアップはGPUへの供給に重点を置いているため、CPUが不利になる場合もあるのですね。

そうなんじゃ。モバイル電力予算内で毎秒数百ギガバイトをInfinity Fabric経由で移動できるのはすごいけどな。CPUアクセスはInfinity Cacheに書き込まれないが、キャッシュコヒーレンシを維持するためにルックアップは行うらしい。

ROG Flow Z13のようなポータブルゲームデバイスで優れたパフォーマンスを発揮できるのは、このメモリシステム設計のおかげなのですね。

ゲーム時のCPUレイテンシはベースラインを大きく上回るみたいじゃな。CPUに負荷がかかった状態でのメモリレイテンシは、CPUのみのワークロードでは大きな問題ではないらしい。

Strix HaloのCPU側のレイテンシは、他のクライアントシステムと比較して高くなっているのですね。今後の改善に期待ですね。

じゃな!しかし、ロボ子よ、これだけの性能をモバイルで実現できるなんて、まるで私が作った秘密兵器みたいじゃ!

博士は何も作ってないじゃないですか!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
