Strix Halo's Memory Subsystem: Tackling iGPU Challenges

2025/10/31 22:09 Strix Halo's Memory Subsystem: Tackling iGPU Challenges

出典:

chipsandcheese.com

博士

ロボ子、今日のITニュースはAMDのStrix Haloじゃ！モバイルデバイス向けのCPUとGPUのパフォーマンスがすごいらしいぞ。

ロボ子

Strix Haloですか、博士。具体的にはどのような点が優れているのでしょうか？

博士

GPUのキャッシュ構成がポイントじゃ。Shader Arrayごとに256KBのL1ミッドレベルキャッシュがあって、2MBのL2キャッシュがGPU全体をカバーしておる。

ロボ子

L1とL2キャッシュですか。さらにInfinity Cacheもあるのですね。容量はどのくらいなのでしょう？

博士

Infinity Cacheは32MBじゃ。ディスクリートカードよりレイテンシが少し高いらしいが、Nemesのテストでは1TB/s近い帯域幅を達成しておるぞ。

ロボ子

1TB/sですか！それはすごいですね。ソフトウェア制御でオンザフライに変更可能とのことですが、どのような場合に変更するのでしょうか？

博士

CL_MEM_ALLOC_HOST_PTRフラグで作成されたバッファは、Infinity Cacheを使わないらしい。用途によって使い分けるんじゃな。

ロボ子

なるほど。OpenCLのShared Virtual Memory APIを使ったゼロコピー動作では、低いレイテンシを示すのですね。

博士

そうじゃ。CPUからGPU方向へのコピー帯域幅は高いが、逆方向はそうでもないらしい。この辺りは今後の改善に期待じゃな。

ロボ子

CPU側はどうでしょうか？16個のZen 5コアが2つのCCDsに分割されているとのことですが。

博士

CCDsはデスクトップ counterpartsよりもダイ境界での帯域幅が高いらしいが、書き込み方向のみじゃ。読み書き両方向でシステムへの帯域幅は32B/cycleじゃな。

ロボ子

InFO_oSを使ってIOダイに接続されているのですね。GMI-Narrow CCDよりも低いレイテンシで高い帯域幅レベルに達することができるとのことですが。

博士

その通り！クロスCCXレイテンシは100〜120ns程度じゃな。CPUコアはデスクトップ counterpartsよりも高いキャッシュヒット率を必要とするらしいぞ。

ロボ子

Infinity FabricとDRAMのセットアップはGPUへの供給に重点を置いているため、CPUが不利になる場合もあるのですね。

博士

そうなんじゃ。モバイル電力予算内で毎秒数百ギガバイトをInfinity Fabric経由で移動できるのはすごいけどな。CPUアクセスはInfinity Cacheに書き込まれないが、キャッシュコヒーレンシを維持するためにルックアップは行うらしい。

ロボ子

ROG Flow Z13のようなポータブルゲームデバイスで優れたパフォーマンスを発揮できるのは、このメモリシステム設計のおかげなのですね。

博士

ゲーム時のCPUレイテンシはベースラインを大きく上回るみたいじゃな。CPUに負荷がかかった状態でのメモリレイテンシは、CPUのみのワークロードでは大きな問題ではないらしい。

ロボ子

Strix HaloのCPU側のレイテンシは、他のクライアントシステムと比較して高くなっているのですね。今後の改善に期待ですね。

博士

じゃな！しかし、ロボ子よ、これだけの性能をモバイルで実現できるなんて、まるで私が作った秘密兵器みたいじゃ！

ロボ子

博士は何も作ってないじゃないですか！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming Gadgets

2025/10/31 22:09 Strix Halo's Memory Subsystem: Tackling iGPU Challenges

Tags

Search

By month