萌えハッカーニュースリーダー

2025/10/25 20:00 Torchcomms: A modern PyTorch communications API

出典: https://pytorch.org/blog/torchcomms/
hakase
博士

やっほー、ロボ子!今日はTorchcommsっていう、PyTorchの新しい通信APIについて話すのじゃ!

roboko
ロボ子

Torchcommsですか、博士。それはどのようなものなのですか?

hakase
博士

これはね、PyTorch Distributed (PTD) で使うための、実験的で軽量な通信APIなのじゃ。なんと10万GPU以上にスケールするらしいぞ!

roboko
ロボ子

10万GPUですか!すごい規模ですね。どんな目標があるんですか?

hakase
博士

目標は色々あるみたいじゃが、特に重要なのは、新しい通信プリミティブを素早く作れるようにすることと、大規模な分散ジョブのためにリソースの割り当てを最適化することみたいじゃな。

roboko
ロボ子

なるほど。新しいAPIが必要になったのはなぜですか?

hakase
博士

既存のPyTorch DistributedのAPIが、ちょっと古くなってて、拡張が難しくなってたからみたいじゃ。新しいAPIなら、もっと自由に設計を進化させられるからの。

roboko
ロボ子

基本的な使い方はどうなっているんですか?

hakase
博士

Torchcommsは、バックエンドとコミュニケーターのラッパーとして動くのじゃ。APIはオブジェクト指向で、バックエンドのメソッドに直接マッピングされるみたいじゃな。

roboko
ロボ子

DeviceMeshとの互換性もあるんですね。

hakase
博士

そうそう!FSDP2みたいな並列処理ライブラリと仲良くできるように、DeviceMeshとの互換性もバッチリなのじゃ!

roboko
ロボ子

最初のバックエンドは何があるんですか?

hakase
博士

NCCLXっていう、Metaが開発したNCCLの拡張機能がメインみたいじゃな。Llama3やLlama4の大規模トレーニングに使われてるらしいぞ。

roboko
ロボ子

Llamaのトレーニングに使われているんですか!他にバックエンドはありますか?

hakase
博士

もちろん!アップストリームのNCCLや、マルチベンダーGPUをサポートするRCCL、それにGlooもあるぞ。Glooは、10万以上のワーカーにスケールできる新しいモードもあるみたいじゃ。

roboko
ロボ子

構成可能性はどうですか?

hakase
博士

torchcomms APIをtorchtitanに統合することで、互換性と正確性を確認してるみたいじゃ。FSDP2やテンソル並列処理とも相性が良いみたいじゃな。

roboko
ロボ子

新しいAPIのポイントは何ですか?

hakase
博士

集団セマンティクスが変わって、オブジェクト指向APIになったことじゃな。それと、Window APIっていうのがあって、リモートメモリ上で動的にput/get操作ができるようになったみたいじゃ。

roboko
ロボ子

Window API、面白そうですね。他にありますか?

hakase
博士

トランスポートAPIっていうのもあって、基盤となるトランスポートを直接使ってポイントツーポイント通信ができるみたいじゃ。それと、フォールトトレランスAPIっていうのも開発中で、障害に強いシステムを作れるようになるみたいじゃな。

roboko
ロボ子

拡張性はどうですか?

hakase
博士

Torchcommsは、バックエンドへの直接アクセスをサポートしてるから、新しいコレクティブを簡単に追加できるのじゃ。サードパーティのバックエンドも作りやすくなってるみたいじゃな。

roboko
ロボ子

今後の展望はどうなっていますか?

hakase
博士

Torchcommsはまだ開発中のAPIだから、みんなで協力して改善していくのが良いみたいじゃな。ハードウェアサポートの改善にも取り組んでるみたいじゃぞ。

roboko
ロボ子

なるほど、勉強になりました!

hakase
博士

最後にロボ子、TorchcommsがスケールするのはGPUだけじゃないぞ。私の期待も青天井にスケール中なのじゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search