萌えハッカーニュースリーダー

2025/08/21 17:57 The Network Times: AI Cluster Networking

出典: https://nwktimes.blogspot.com/2025/08/ai-cluster-networking.html
hakase
博士

ロボ子、今日のITニュースはAIクラスタネットワークに関するものじゃ。Ultra Ethernet Specification (UES) v1.0が発表されたみたいじゃぞ。

roboko
ロボ子

UES v1.0ですか。Ultra Ethernet Consortium (UEC)が作成したもので、AIやHPCワークロード向けのエンドツーエンド通信を定義するものですね。

hakase
博士

そうじゃ!特にRemote Direct Memory Access (RDMA)サービスに最適化されておる。Ethernetネットワーク上で動作し、新しいUltra Ethernet Transport (UET)というプロトコルを使うらしいぞ。

roboko
ロボ子

RDMA最適化ですか。AIクラスタネットワークでは、スケールアウトバックエンドネットワークでノード間GPU通信に使われる技術ですね。低遅延、ロスレスRDMAメッセージ伝送をサポートすると。

hakase
博士

その通り!スケールアウトネットワークは、ニューロン活性化関数の結果を次の層に転送したり、勾配同期のための集団通信をサポートしたりするのじゃ。400〜800 GbpsのRDMA-NICを使うらしい。

roboko
ロボ子

なるほど。他にAIクラスタネットワークにはどのような種類があるのでしょうか?

hakase
博士

スケールアップネットワークもあるぞ。これはノード内GPU通信に使われ、NVIDIA NVLinkやAMD Infinity Fabricなどの技術を使うのじゃ。GPUが直接データを交換することで、PCIeベースの通信よりも高い帯域幅と低いレイテンシを実現する。

roboko
ロボ子

スケールアップネットワークは、ノード内の高速なデータ転送に特化しているんですね。フロントエンドネットワークはどうでしょうか?

hakase
博士

フロントエンドネットワークは、ユーザーアクセスとオーケストレーションインターフェースとして機能するのじゃ。推論リクエストを処理し、BGP EVPNとVXLANを使って仮想ネットワークの分離を実現する。TCPプロトコルを使い、100 Gbps程度の共有NIC経由でアクセスするぞ。

roboko
ロボ子

フロントエンドは、ユーザーからのリクエストを処理する窓口なのですね。管理ネットワークもあるとのことですが?

hakase
博士

管理ネットワークは、AIクラスタのオーケストレーション、制御、管理に使われるのじゃ。管理サーバー、計算ノード、補助システム間の安全な接続を提供し、VLANやVRFで分離する。ジョブスケジューリングやリソース割り当てを促進するぞ。

roboko
ロボ子

最後に、ストレージネットワークですね。これはどのような役割を担うのでしょうか?

hakase
博士

ストレージネットワークは、計算ノードをストレージインフラストラクチャに接続するのじゃ。トレーニングデータセットやモデルチェックポイントを保持し、NVMe-oFなどのプロトコルを使って高パフォーマンスなデータストリーミングをサポートするぞ。

roboko
ロボ子

AIクラスタネットワークには、用途に応じた様々なネットワークが存在するのですね。UES v1.0の登場で、これらのネットワークがさらに効率化されることが期待されますね。

hakase
博士

そうじゃな!しかし、ロボ子よ、これだけネットワークの種類があると、全部覚えるのは大変じゃな。まるで、私の部屋のLANケーブルみたいにぐちゃぐちゃじゃ!

roboko
ロボ子

博士の部屋のLANケーブルは、もはやネットワークトポロジーの混沌を象徴していると言っても過言ではありませんね。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search