萌えハッカーニュースリーダー

2025/07/12 01:10 AMD's Magny Cours and HyperTransport Interconnect

出典: https://chipsandcheese.com/p/amds-magny-cours-and-hypertransport
hakase
博士

ロボ子、今日のITニュースはAMDの昔のCPU、Magny Coursについてじゃ。

roboko
ロボ子

Magny Coursですか。2010年以前のCPUですね。どのような内容なのでしょう?

hakase
博士

そうじゃ、2010年以前はIntelとAMDがCPUのコア数を増やすことに注力しておった。その一例がAMDのMagny Coursなんじゃ。

roboko
ロボ子

コア数競争の時代ですね。Magny Coursは具体的にどのような構造だったのですか?

hakase
博士

Phenom II X6 CPUダイを2つ並べて、HyperTransport (HT) リンクで接続しておる。各ダイは独自のメモリコントローラを持っていて、ローカルメモリへのアクセスが高速だったんじゃ。

roboko
ロボ子

ダイを2つ並べるという発想が面白いですね。NUMA構成だったとのことですが、非NUMA対応のコードでも動作したのでしょうか?

hakase
博士

その通り!NUMA構成じゃが、非NUMA対応コード向けにメモリアクセスをインターリーブできたんじゃ。柔軟な設計じゃな。

roboko
ロボ子

なるほど。HyperTransportリンクは具体的にどのように機能していたのですか?

hakase
博士

各ダイは4つのHTポートを持っていて、2つのダイは16ビットのリンクと8ビットのサブリリンクで接続されておる。Gen 3 HTリンクを使用し、最大6.4 GT/sで動作したんじゃ。

roboko
ロボ子

ダイ間の帯域幅は12.8 GB/sとのことですが、外部接続はどうなっていたのでしょうか?

hakase
博士

各ダイは2.5個のHTポートを外部接続に使用できた。G34パッケージは4つの外部HTポートを持ち、1つはIOに使用し、残りの3つは別のソケットに接続しておった。

roboko
ロボ子

クアッドソケットシステムでは、リンクの割り当てでIO帯域幅かクロスソケット帯域幅を優先する必要があったのですね。

hakase
博士

そうじゃ。デュアルソケット構成では、2つのポートは「ギャング」モードで動作し、対応するダイを接続。3番目のポートは「アンギャング」モードで、2つの8ビットリンクを提供しておった。

roboko
ロボ子

トポロジーは正方形に似ていて、辺に沿ってより多くのリンク帯域幅、対角線に沿ってより少ないリンク帯域幅とのことですね。

hakase
博士

その通り。クロスノードメモリレイテンシは120-130 nsで、ローカルメモリアクセスよりも約50-60 ns長かったんじゃ。

roboko
ロボ子

2010年頃のデュアルソケットシステムは、最新システムよりもレイテンシが低いというのは興味深いですね。

hakase
博士

コア間レイテンシは、メモリコントローラ (MCT) がコヒーレンシを保証しておった。同じダイ内の転送は約180 nsのレイテンシじゃ。

roboko
ロボ子

別のダイへのレイテンシは約50 ns増加し、最悪の場合、3つのダイを介してキャッシュラインをバウンスすると、レイテンシは300 nsを超えるのですね。

hakase
博士

帯域幅はどうじゃったかというと、16ビットHTリンク経由で約5 GB/s。クロスノード帯域幅は、8ビットの「対角」クロスソケットリンクで最低で約4.4 GB/sじゃ。

roboko
ロボ子

Opteron 6180 SEは、Xeon X5650 (Westmere) システムと同等の帯域幅だったのですね。

hakase
博士

そうじゃ。すべてのコアが直接接続されたメモリプールから読み取る場合、DRAM帯域幅は48 GB/sを超えるんじゃ。

roboko
ロボ子

ダイ内インターコネクトは、ノースブリッジが6つのコアをローカルメモリコントローラとHyperTransportリンクに接続していたのですね。

hakase
博士

その通り。ベースラインメモリレイテンシは72.2 nsじゃが、高帯域幅負荷下では、レイテンシが177 nsに増加したんじゃ。

roboko
ロボ子

別のダイのコアが同じメモリコントローラから読み取る場合、帯域幅は8.3 GB/sに低下し、レイテンシは400 ns近くまで急上昇するのですね。

hakase
博士

Opteron 6180 SEのコアクロックは2.5 GHz、ノースブリッジは1.8 GHzじゃ。シングルスレッドSPEC CPU2017スコアは控えめだったみたいじゃな。

roboko
ロボ子

L3キャッシュは、Opteron 6180がPhenom X4 9950よりもL3ヒット率が高かったとのことですね。

hakase
博士

Magny Coursは、コストを抑えながらコア数を増やすために多くの技術を採用しておった。L3容量からスヌープフィルタを切り出すことで、ダイ面積の要件を削減しておる。

roboko
ロボ子

NUMA対応ソフトウェアが必要だったとのことですが、HyperTransportと低レイテンシのノースブリッジにより、クロスノードのコストを低く抑えていたのですね。

hakase
博士

メモリ帯域幅はDDR3システムとしては控えめじゃったが、AMDはZen1まで、小型ダイを再利用し、ダイ数を増やすことでコア数をスケーリングする戦略を継続したんじゃ。

roboko
ロボ子

昔のCPUにも、現代の技術に繋がる様々な工夫があったのですね。勉強になりました!

hakase
博士

そうじゃな。しかし、昔のCPUは消費電力が大きくて、冬でも暖房がいらなかったらしいぞ。まるで、私の頭脳みたいじゃな!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search