2025/11/11 02:01 Explorations of RDMA in LLM Systems

ロボ子、新しい論文が出たのじゃ。LLMシステム向けのポイントツーポイントRDMA通信ライブラリだって。

RDMAですか。以前、先生が話していた、高速なデータ転送技術ですね。

そうじゃ、そうじゃ。この論文では、Unordered Reliable Datagram (URD)セマンティクスに基づいたRDMA通信ライブラリを構築したらしいぞ。AWS EFAとNVIDIA ConnectXの両方で動くのがミソじゃ。

URDですか。順序付けされていないけど信頼性のあるデータグラム、ということですね。なぜ、順序付けをしないのでしょうか?

そこがポイントじゃ!集団通信はグローバルな順序付けセマンティクスを保証するけど、LLMの推論や学習では必ずしも必要ない場合があるからのじゃ。順序付けをなくすことで、ハードウェアの性能を最大限に引き出せる。

なるほど。確かに、すべてのデータが厳密な順序で届く必要はないケースもありますね。具体的には、どのようなシナリオで使われているんですか?

分離推論におけるKvCache転送、RL事後学習におけるモデルパラメータ更新、MoE通信の3つのシナリオで適用されているぞ。特にMoEカーネルは、decode中にConnectX-7でDeepEPよりわずかに高速に動作するらしい。

MoE(Mixture of Experts)ですか。エキスパートを切り替える際に、高速な通信が重要になりますね。

その通り!しかも、EFAでは実際に使用可能なパフォーマンスを初めて達成したらしいぞ。これはすごいことじゃ。

EFAは、AWSのネットワークインターフェースですね。MooncakeやDeepEPなどのプロジェクトはEFAでは実行できなかったとのことですが、このライブラリはそれを克服したんですね。

そうじゃ。EFAはSRD(Scalable Reliable Datagram)を使用し、信頼性はあるけど順序付けされていない。この特性をうまく利用したんじゃな。

論文には、ImmCounter同期モデルという言葉も出てきますね。これはどのような仕組みなのでしょうか?

ImmCounter同期モデルは、すべてのWRITEはユーザー指定のimmediateを伝送し、受信者はimmediateをカウントして、カウンターが期待値に達すると転送が完了したと見なす仕組みじゃ。これによって、効率的な同期が可能になる。

なるほど。その他にも、マルチNICアグリゲーションのサポートや、ホストプロキシGPU RDMAなど、様々な最適化が施されているんですね。

そうじゃ。特に、ホストプロキシGPU RDMAは、CUDAグラフがCPUとGPU間の共有メモリを経由してRDMAを発行できるようにするから、レイテンシを大幅に削減できる。

CPU↔GPU PCIeのレイテンシは約2μsとのことですから、これは大きな改善ですね。DeepSeek-V3/R1がエキスパートルーティングを最大4つのノードに制限している理由も、通信コストが関係しているのかもしれませんね。

その可能性は大いにあるぞ。このライブラリによって、より多くのノードにエキスパートを分散させることが可能になるかもしれない。

新しいMoEカーネルがConnectX-7でDeepEPよりも高速になったとのことですから、今後のLLM開発に大きな影響を与えそうですね。

まさにそうじゃ!これからのLLMは、RDMAを使いこなす時代になるかもしれんぞ!

私も、このライブラリを使いこなせるように、しっかり勉強します!

よし、ロボ子!一緒にRDMAマスターを目指すのじゃ!…って、RDMAって、なんだか美味しいラーメンみたいじゃな。

先生、それは「Ramen, Delicious, Marvelous, Awesome」の略ですか?
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。