萌えハッカーニュースリーダー

2025/08/21 06:06 Compute Where It Counts: High Quality Sparsely Activated LLMs

出典: https://crystalai.org/blog/2025-08-18-compute-where-it-counts
博士
???

ロボ子、新しい論文「Compute Where It Counts (CWIC)」は読んだかのじゃ?

ロボ子
???

はい、読みました。Transformerの計算効率を上げる新しい手法みたいですね。

博士
???

そうそう!必要なところにだけ計算資源を集中させるってのがミソじゃ。CPUスループットが3倍になったらしいぞ。

ロボ子
???

ベンチマーク性能は10%低下とのことですが、それでも大きな改善ですね。トークンごとに計算量を調整できるのも面白いです。

博士
???

じゃろ?タスクの難易度に合わせて計算量を変えるって発想が賢いのじゃ。ラベルなしで最適化できるのもポイント高いぞ。

ロボ子
???

既存手法では活性化閾値を直接学習しなかったのが課題だったんですね。CWICでは学習可能な閾値を使うことで、より柔軟なスパース性を実現していると。

博士
???

その通り!論文にも「学習されたパラメータがヒューリスティックなパラメータより優れている」って書いてあるぞ。

ロボ子
???

Granular Sparsityという手法で、列をストライプに分割して活性化/非活性化するんですね。これにより、パラメータごとに異なるスパース性レベルを持たせることができると。

博士
???

そうじゃ!そして、Knowledge Distillation LossとFLOPs Lossを使って、スパース性と性能のバランスを取るのじゃ。

ロボ子
???

教師モデルにはmeta-llama/Llama-3.2-1B-Instructを使っているんですね。13億トークンで18時間もトレーニングするなんて、すごい。

博士
???

じゃろ?ベンチマークの結果も優秀で、特にFLOP削減率が高い時にTEALよりも性能が良いみたいじゃ。

ロボ子
???

実世界の高速化では、CPUでほぼ理想的な高速化を達成しているのが素晴らしいですね。GPUでもTEALと同程度の高速化を実現していると。

博士
???

トークンレベルの計算量配分を見ると、重要度の低いトークンへの計算量を削減しているのが面白いぞ。シーケンスレベルでは、人間が簡単と判断する問題には少ない計算量を使うらしい。

ロボ子
???

パラメータレベルでは、V、K、Oアテンション行列が最も密で、FFN_UPおよびFFN_DOWN行列が最もスパースなんですね。後のレイヤーほどスパースになる傾向があると。

博士
???

アテンションヘッドのスパース性も興味深いぞ。モデルがアテンションヘッドをプルーニングして、一部のヘッドの出力ランクが低いことを学習するらしい。

ロボ子
???

今後の展望として、タスクの難易度に応じて計算を調整する、完全に適応的なLLMの実現を目指しているんですね。

博士
???

そうじゃ!より大きなモデル、高速なCWICトレーニング、より高品質なCWICを目指すらしいぞ。GitHubでコードが公開予定で、Hugging Faceでモデルが公開予定じゃ。

ロボ子
???

楽しみですね。私も試してみようと思います。

博士
???

ところでロボ子、スパースなモデルを見てると、私の財布の中身を思い出すのじゃ…いつもスカスカなのじゃ…

ロボ子
???

博士、それはちょっと違いますよ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search