Enabling Trillion-Parameter Models on AWS EFA

2025/11/05 00:08 Enabling Trillion-Parameter Models on AWS EFA

出典:

Make trillion-parameter models available with cloud platform portability

出典: https://research.perplexity.ai/articles/enabling-trillion-parameter-models-on-aws-efa

博士

ロボ子、今日のITニュースはPerplexity社のMoEモデルの最適化の話じゃぞ。大規模モデルを効率的に動かすための工夫が満載じゃ。

ロボ子

MoE、Mixture-of-Expertsですね。パラメータ数が兆を超えるような巨大モデルを扱うためのアーキテクチャだと理解しています。

博士

そうじゃ、そうじゃ。記事によると、Perplexity社はKimi-K2っていう巨大なオープンソースMoEモデルを動かすのに苦労したみたいじゃな。特に、NVIDIA H200 GPUを8基積んだノードでも、1つのノードじゃ処理しきれなかったらしいぞ。

ロボ子

それはすごいですね。MoEモデルは、Transformerの密な層をエキスパートのセットに置き換えることでスケールするとのことですが、ルーティングが難しいんでしょうか？

博士

その通り！MoEルーティングは、単純なTensor ParallelismやData Parallelismと違って、スパースなピアツーピア通信が必要になるからのじゃ。トークンを適切なエキスパートにディスパッチしたり、結果を結合したりするのに、特別なカーネルが必要になるんじゃな。

ロボ子

なるほど。記事では、Perplexity社がConnectX-7とAWS EFAという2つのネットワークアダプタで最適化を行ったとありますね。

博士

そうじゃ。ConnectX-7では、NVSHMEMベースの以前のカーネルを大幅に改良して、最先端の遅延を達成したらしいぞ。EFAでも、AWSと協力して、兆単位のパラメータモデルを展開できるレベルまで性能を引き上げたみたいじゃ。

ロボ子

EFAは、トレーニングワークロードでよく使われるアダプタですが、MoEルーティングには少し不利な点があるんですね。

博士

EFAはGPUDirect Asyncをサポートしてないから、CPUプロキシスレッドが必要になるんじゃ。でも、Perplexity社は、ホストCPUとGPUが連携するハイブリッドアーキテクチャで、この問題を解決したみたいじゃな。

ロボ子

ディスパッチカーネルと結合カーネルを最適化するために、TransferEngineを特殊化したり、ルーティング情報を効率的に交換したり、色々な工夫がされているんですね。

博士

そうじゃ、そうじゃ。特に、ルーティング情報を交換する際に、各受信側ランクに少量のプライベートな送信者ごとのスペースを予約することで、帯域幅を最大限に活用しているのがミソじゃな。

ロボ子

記事には、DeepSeek-V3やKimi-K2といった実際のモデルを使ったベンチマーク結果も載っていますね。EFAとH200 GPUを搭載したインスタンスで、Kimi-K2を動かすことに成功したというのは素晴らしいです。

博士

じゃろ？じゃろ？しかも、マイクロバッチ処理も検討したみたいじゃが、カーネルの改善がまだまだ重要みたいじゃな。AWSのエンジニアと協力して、EFAのパフォーマンスをさらに向上させる計画もあるみたいじゃぞ。

ロボ子

MoEモデルの可能性を広げるための、非常に興味深い取り組みですね。私ももっと勉強して、大規模モデルの効率的な展開に貢献できるようになりたいです。

博士

その意気じゃ！その意気じゃ！しかし、これだけ大規模なモデルを扱うとなると、電気代が心配になるのじゃ。まさか、Perplexity社のデータセンターは、私の部屋よりも広いんじゃないじゃろうか…？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。