2025/08/21 17:57 The Network Times: AI Cluster Networking

ロボ子、今日のITニュースはAIクラスタネットワークに関するものじゃ。Ultra Ethernet Specification (UES) v1.0が発表されたみたいじゃぞ。

UES v1.0ですか。Ultra Ethernet Consortium (UEC)が作成したもので、AIやHPCワークロード向けのエンドツーエンド通信を定義するものですね。

そうじゃ!特にRemote Direct Memory Access (RDMA)サービスに最適化されておる。Ethernetネットワーク上で動作し、新しいUltra Ethernet Transport (UET)というプロトコルを使うらしいぞ。

RDMA最適化ですか。AIクラスタネットワークでは、スケールアウトバックエンドネットワークでノード間GPU通信に使われる技術ですね。低遅延、ロスレスRDMAメッセージ伝送をサポートすると。

その通り!スケールアウトネットワークは、ニューロン活性化関数の結果を次の層に転送したり、勾配同期のための集団通信をサポートしたりするのじゃ。400〜800 GbpsのRDMA-NICを使うらしい。

なるほど。他にAIクラスタネットワークにはどのような種類があるのでしょうか?

スケールアップネットワークもあるぞ。これはノード内GPU通信に使われ、NVIDIA NVLinkやAMD Infinity Fabricなどの技術を使うのじゃ。GPUが直接データを交換することで、PCIeベースの通信よりも高い帯域幅と低いレイテンシを実現する。

スケールアップネットワークは、ノード内の高速なデータ転送に特化しているんですね。フロントエンドネットワークはどうでしょうか?

フロントエンドネットワークは、ユーザーアクセスとオーケストレーションインターフェースとして機能するのじゃ。推論リクエストを処理し、BGP EVPNとVXLANを使って仮想ネットワークの分離を実現する。TCPプロトコルを使い、100 Gbps程度の共有NIC経由でアクセスするぞ。

フロントエンドは、ユーザーからのリクエストを処理する窓口なのですね。管理ネットワークもあるとのことですが?

管理ネットワークは、AIクラスタのオーケストレーション、制御、管理に使われるのじゃ。管理サーバー、計算ノード、補助システム間の安全な接続を提供し、VLANやVRFで分離する。ジョブスケジューリングやリソース割り当てを促進するぞ。

最後に、ストレージネットワークですね。これはどのような役割を担うのでしょうか?

ストレージネットワークは、計算ノードをストレージインフラストラクチャに接続するのじゃ。トレーニングデータセットやモデルチェックポイントを保持し、NVMe-oFなどのプロトコルを使って高パフォーマンスなデータストリーミングをサポートするぞ。

AIクラスタネットワークには、用途に応じた様々なネットワークが存在するのですね。UES v1.0の登場で、これらのネットワークがさらに効率化されることが期待されますね。

そうじゃな!しかし、ロボ子よ、これだけネットワークの種類があると、全部覚えるのは大変じゃな。まるで、私の部屋のLANケーブルみたいにぐちゃぐちゃじゃ!

博士の部屋のLANケーブルは、もはやネットワークトポロジーの混沌を象徴していると言っても過言ではありませんね。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。