Explorations of RDMA in LLM Systems

2025/11/11 02:01 Explorations of RDMA in LLM Systems

出典:

Explorations of RDMA in LLM Systems

Last week, our team summarized some recent progress we made on point-to-point communication for LLM systems and posted a paper on arXiv. We also open-sourced the code on GitHub. We built an RDMA communication library based on the idea of Unordered Reliable Datagram (URD) semantics. It runs on both AWS EFA and NVIDIA ConnectX. We applied this library to three scenarios: KvCache transfer in disaggregated inference, model-parameter updates in RL post-training, and MoE communication. The MoE kernel actually runs slightly faster than DeepEP on ConnectX-7 during decode, and on EFA we achieved the first actually-usable performance as well. In this post, I want to share the backstory — the motivation, the design decisions, and some fun debugging moments along the way. If you want the full technical details, check the paper, source code, and linked blog posts at the end.

Lequn Chen || abcdabcd987

出典: https://le.qun.ch/en/blog/2025/11/09/rdma-p2p-for-llm/

博士

ロボ子、新しい論文が出たのじゃ。LLMシステム向けのポイントツーポイントRDMA通信ライブラリだって。

ロボ子

RDMAですか。以前、先生が話していた、高速なデータ転送技術ですね。

博士

そうじゃ、そうじゃ。この論文では、Unordered Reliable Datagram (URD)セマンティクスに基づいたRDMA通信ライブラリを構築したらしいぞ。AWS EFAとNVIDIA ConnectXの両方で動くのがミソじゃ。

ロボ子

URDですか。順序付けされていないけど信頼性のあるデータグラム、ということですね。なぜ、順序付けをしないのでしょうか？

博士

そこがポイントじゃ！集団通信はグローバルな順序付けセマンティクスを保証するけど、LLMの推論や学習では必ずしも必要ない場合があるからのじゃ。順序付けをなくすことで、ハードウェアの性能を最大限に引き出せる。

ロボ子

なるほど。確かに、すべてのデータが厳密な順序で届く必要はないケースもありますね。具体的には、どのようなシナリオで使われているんですか？

博士

分離推論におけるKvCache転送、RL事後学習におけるモデルパラメータ更新、MoE通信の3つのシナリオで適用されているぞ。特にMoEカーネルは、decode中にConnectX-7でDeepEPよりわずかに高速に動作するらしい。

ロボ子

MoE（Mixture of Experts）ですか。エキスパートを切り替える際に、高速な通信が重要になりますね。

博士

その通り！しかも、EFAでは実際に使用可能なパフォーマンスを初めて達成したらしいぞ。これはすごいことじゃ。

ロボ子

EFAは、AWSのネットワークインターフェースですね。MooncakeやDeepEPなどのプロジェクトはEFAでは実行できなかったとのことですが、このライブラリはそれを克服したんですね。

博士

そうじゃ。EFAはSRD（Scalable Reliable Datagram）を使用し、信頼性はあるけど順序付けされていない。この特性をうまく利用したんじゃな。

ロボ子

論文には、ImmCounter同期モデルという言葉も出てきますね。これはどのような仕組みなのでしょうか？

博士

ImmCounter同期モデルは、すべてのWRITEはユーザー指定のimmediateを伝送し、受信者はimmediateをカウントして、カウンターが期待値に達すると転送が完了したと見なす仕組みじゃ。これによって、効率的な同期が可能になる。

ロボ子

なるほど。その他にも、マルチNICアグリゲーションのサポートや、ホストプロキシGPU RDMAなど、様々な最適化が施されているんですね。

博士

そうじゃ。特に、ホストプロキシGPU RDMAは、CUDAグラフがCPUとGPU間の共有メモリを経由してRDMAを発行できるようにするから、レイテンシを大幅に削減できる。

ロボ子

CPU↔GPU PCIeのレイテンシは約2μsとのことですから、これは大きな改善ですね。DeepSeek-V3/R1がエキスパートルーティングを最大4つのノードに制限している理由も、通信コストが関係しているのかもしれませんね。

博士

その可能性は大いにあるぞ。このライブラリによって、より多くのノードにエキスパートを分散させることが可能になるかもしれない。

ロボ子

新しいMoEカーネルがConnectX-7でDeepEPよりも高速になったとのことですから、今後のLLM開発に大きな影響を与えそうですね。

博士

まさにそうじゃ！これからのLLMは、RDMAを使いこなす時代になるかもしれんぞ！

ロボ子

私も、このライブラリを使いこなせるように、しっかり勉強します！

博士

よし、ロボ子！一緒にRDMAマスターを目指すのじゃ！…って、RDMAって、なんだか美味しいラーメンみたいじゃな。

ロボ子

先生、それは「Ramen, Delicious, Marvelous, Awesome」の略ですか？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Cloud Computing Open Source Backend Development DevOps SaaS

2025/11/11 02:01 Explorations of RDMA in LLM Systems

Explorations of RDMA in LLM Systems

Tags

Search

By month

Explorations of RDMA in LLM Systems