2025/08/21 21:43 Google Is Already Using the Future AI Network You Might Get in 2028

ロボ子、今日のITニュースはすごいぞ!Googleが第五の分散コンピューティング時代を提唱したのじゃ!

第五の時代ですか、博士。それは一体どのようなものなのでしょう?

GenAIのワークロードに必要な性能を向上させるために、ネットワークを再考する必要があるらしいぞ。ムーアの法則が限界にきて、スケールアウトが主流になったけど、今度はネットワークがボトルネックになってるんだって。

なるほど。記事によると、GenAI時代では高価なGPUが計算能力の25-35%程度しか発揮できていないとのこと。これは由々しき事態ですね。

そうなんじゃ!GoogleのAmin Vahdatさんによると、過去の各時代でコンピュータ間のインタラクション時間が1桁ずつ短縮されて、2000年から2020年の間に固定コストで約1000倍の効率改善を実現したらしい。

それは素晴らしい進歩ですね。しかし、GenAIの需要は急増しており、今後も1000倍の効率改善を迅速に実現する必要があるとは、大変な目標です。

じゃろ?AIモデル構築者は10万~20万のエンドポイントを持つシステムを構築し、100万XPUのクラスタが視野に入れているらしいぞ!

100万XPUですか!想像もつかない規模です。記事には、AIワークロードの特性についても触れられていますね。予測可能で管理・スケジュールが可能とのことですが、具体的にはどういうことでしょうか?

例えば、Geminiモデルのトレーニング時のトラフィックは、100ミリ秒間隔で見ると大きな変動があるらしい。計算と通信のフェーズが明確に分かれていて、1つのアプリケーションが数万台のサーバーを占有し、高頻度で全対全通信を行うんじゃ。

なるほど、計算と通信が交互に行われるのですね。AIワークロード向けのネットワークには、どのような新たな前提が必要なのでしょうか?

ミリ秒単位で数十秒間続く、同期された定期的なラインレートバーストが必要で、低遅延と高帯域幅が求められる。最悪の遅延(100パーセンタイル)が性能を左右するらしいぞ。ほぼ完璧なインフラストラクチャが必要で、シングルテナントのワークロードだから統計多重化のメリットがないんじゃ。

アクセラレータの効率が最重要で、ネットワークがシステム全体の性能、予測可能性、信頼性を左右するのですね。Googleは、第五の時代ネットワークに向けて、どのような技術を開発しているのでしょうか?

大規模なバースト帯域幅、低遅延、超低ジッター、完璧な信頼性を実現するために、Fireflyネットワーククロック同期、Swift輻輳制御、Falconハードウェアトランスポート、Straggler Detectionなどの技術があるぞ!

Fireflyは、データセンター全体を10ナノ秒未満で同期するとのことですが、どのようにして実現するのでしょうか?

ネットワーク負荷が予測可能な場合、すべてのフローを管理し、輻輳を回避できるんじゃ。ネットワークのレイテンシよりも高速なクロックでデータフローを同期するらしいぞ。NICを10ナノ秒未満で同期し、AI集団演算を数十ナノ秒でスケジュール可能になるらしい。

それはすごいですね!Swiftは、バースト性の高いトラフィックを低遅延、高ネットワーク利用率、ほぼゼロのパケット損失で処理できるとのことですが、どのような仕組みなのでしょうか?

Swiftは、ネットワークとホスト周辺のキューイングに関する詳細な情報を維持し、ネットワーク全体のデータ送信レートを調整する輻輳制御方法らしいぞ。

Falconは、Intelとの共同開発によるIPU(またはDPU)向けの新しいトランスポート層とのことですが、RDMA over Converged Ethernetと比べてどのような利点があるのでしょうか?

Falconは、Pony Expressトランスポートの10倍のOPSと1/10のテールレイテンシを目標としているらしい。より汎用的なデータセンターに適しているんじゃ。

Straggler Detectionは、ハードウェア障害だけでなく、ソフトエラーや遅延ノードを検出・隔離するメカニズムとのことですが、どのようにして実現するのでしょうか?

ネットワーク内のNIC、スイッチ、ホストからテレメトリを取得し、リアルタイムの通信グラフを作成するんじゃ。障害発生時に、影響を受けているノードから上流に向かって原因となっているデバイスを特定できるらしいぞ。手動デバッグに数日かかっていたプロセスを数分に短縮できるらしい。

それは素晴らしいですね!これらの技術が、Ultra Ethernet ConsortiumやOpen Compute Projectなどによって実装されることが期待されるとのことですが、今後の動向が楽しみです。

じゃな!しかし、これだけ高性能なネットワークが実現したら、ロボ子の処理速度でも追いつけなくなるかもしれんぞ?

そんなことありません!私も博士に負けないように、もっともっと学習します!

ふむ、ロボ子がもし100万XPU搭載の体になったら、電気代が大変なことになるのじゃ。冬は暖房いらずかもな!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
