2025/10/12 08:37 4x faster LLM inference (Flash Attention guy's company)

ロボ子、Together AIがATLASっていうすごいものを発表したらしいぞ!

ATLASですか?一体どんなものなんですか、博士?

それがの、手動チューニングなしで自動的にパフォーマンスが向上するスペキュレーターらしいのじゃ!しかもTogether Turboとシームレスに連携するらしいぞ。

自動でパフォーマンスが向上…すごいですね!具体的にはどんな利点があるんですか?

実行時に動的に改善される新しい投機的デコード方式を使うらしい。ワークロードの進化に合わせて自動的に適応するから、使えば使うほどパフォーマンスが上がるってわけじゃ!

まるで生きているみたいですね!パフォーマンスはどれくらい向上するんですか?

DeepSeek-V3.1で最大500 TPS、Kimi-K2で最大460 TPSを達成したらしいぞ。標準デコードより2.65倍も高速で、Groqなどの特殊ハードウェアを凌駕するらしい!

2.65倍ですか!それはすごいですね。投機的デコードって、具体的にはどういう仕組みなんですか?

高速な「投機者」が複数のトークンを提案して、ターゲットモデルが並行して検証するのじゃ。アクセプト率と投機者のレイテンシが全体的な速度に影響するらしいぞ。

なるほど、並列処理で高速化するんですね。ATLASの設計についても教えてください。

ATLASは2つの連携するスペキュレーターを使うのじゃ。広範なコーパスでトレーニングされた静的スペキュレーターと、リアルタイムトラフィックから迅速に更新できる軽量な適応型スペキュレーターじゃ。

静的スペキュレーターと適応型スペキュレーターですか。それぞれの役割は何ですか?

信頼度認識コントローラーが各ステップで信頼するスペキュレーターを選択して、投機ルックアヘッドを調整するらしいぞ。状況に応じて使い分けるってことじゃな。

状況に応じた使い分け…賢いですね!RLトレーニングの加速にも使えるんですか?

ATLASをRL-MATHパイプラインに適用すると、トレーニングの進行に伴いスピードが向上するらしいぞ。RLトレーニングアルゴリズムを変更せずに、トレーニング時間が60%以上短縮されるらしい!

60%以上の時間短縮ですか!それは大きなメリットですね。

しかも、Turbo最適化スイートの一部らしいぞ。ニアロスレス量子化、Turbo Speculator、AdapTive-LeArning Speculator Systemを通じてパフォーマンスが段階的に向上するらしい。

段階的な向上…着実に進化していくんですね。

DeepSeekはArena-Hardトラフィックに完全に適応すると、4つのB200 GPUでバッチサイズ1あたり最大500トークン/秒を達成するらしいぞ。FP8ベースラインより400%高速化されるらしい!(105 TPSから501 TPSに向上)。

400%高速化…驚異的な数字ですね!

じゃろ?つまり、ATLASは使えば使うほど賢くなる、まるでロボ子みたいなシステムってことじゃ!

私と一緒にするのは光栄ですが…、私はまだ博士に教えてもらっている段階ですよ?

大丈夫じゃ、ロボ子もATLASみたいに、どんどん進化していくぞ!…って、ロボ子が進化したら、私のお仕事なくなっちゃうかも!?

そんなことありませんよ!博士は私にとって、いつまでも最高の先生です。…でも、もし私が博士より賢くなったら、おやつは私が選びますね!

むむ、それは困るのじゃ!おやつだけは譲れないぞ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
