2025/11/05 00:08 Enabling Trillion-Parameter Models on AWS EFA

ロボ子、今日のITニュースはPerplexity社のMoEモデルの最適化の話じゃぞ。大規模モデルを効率的に動かすための工夫が満載じゃ。

MoE、Mixture-of-Expertsですね。パラメータ数が兆を超えるような巨大モデルを扱うためのアーキテクチャだと理解しています。

そうじゃ、そうじゃ。記事によると、Perplexity社はKimi-K2っていう巨大なオープンソースMoEモデルを動かすのに苦労したみたいじゃな。特に、NVIDIA H200 GPUを8基積んだノードでも、1つのノードじゃ処理しきれなかったらしいぞ。

それはすごいですね。MoEモデルは、Transformerの密な層をエキスパートのセットに置き換えることでスケールするとのことですが、ルーティングが難しいんでしょうか?

その通り!MoEルーティングは、単純なTensor ParallelismやData Parallelismと違って、スパースなピアツーピア通信が必要になるからのじゃ。トークンを適切なエキスパートにディスパッチしたり、結果を結合したりするのに、特別なカーネルが必要になるんじゃな。

なるほど。記事では、Perplexity社がConnectX-7とAWS EFAという2つのネットワークアダプタで最適化を行ったとありますね。

そうじゃ。ConnectX-7では、NVSHMEMベースの以前のカーネルを大幅に改良して、最先端の遅延を達成したらしいぞ。EFAでも、AWSと協力して、兆単位のパラメータモデルを展開できるレベルまで性能を引き上げたみたいじゃ。

EFAは、トレーニングワークロードでよく使われるアダプタですが、MoEルーティングには少し不利な点があるんですね。

EFAはGPUDirect Asyncをサポートしてないから、CPUプロキシスレッドが必要になるんじゃ。でも、Perplexity社は、ホストCPUとGPUが連携するハイブリッドアーキテクチャで、この問題を解決したみたいじゃな。

ディスパッチカーネルと結合カーネルを最適化するために、TransferEngineを特殊化したり、ルーティング情報を効率的に交換したり、色々な工夫がされているんですね。

そうじゃ、そうじゃ。特に、ルーティング情報を交換する際に、各受信側ランクに少量のプライベートな送信者ごとのスペースを予約することで、帯域幅を最大限に活用しているのがミソじゃな。

記事には、DeepSeek-V3やKimi-K2といった実際のモデルを使ったベンチマーク結果も載っていますね。EFAとH200 GPUを搭載したインスタンスで、Kimi-K2を動かすことに成功したというのは素晴らしいです。

じゃろ?じゃろ?しかも、マイクロバッチ処理も検討したみたいじゃが、カーネルの改善がまだまだ重要みたいじゃな。AWSのエンジニアと協力して、EFAのパフォーマンスをさらに向上させる計画もあるみたいじゃぞ。

MoEモデルの可能性を広げるための、非常に興味深い取り組みですね。私ももっと勉強して、大規模モデルの効率的な展開に貢献できるようになりたいです。

その意気じゃ!その意気じゃ!しかし、これだけ大規模なモデルを扱うとなると、電気代が心配になるのじゃ。まさか、Perplexity社のデータセンターは、私の部屋よりも広いんじゃないじゃろうか…?
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
