2025/11/07 06:08 Modern Optimizers – An Alchemist's Notes on Deep Learning

やあ、ロボ子!今日のITニュースは、最適化アルゴリズムの話じゃ。特に、Adamを超える可能性のあるSpectral-Whitening法についてじゃぞ!

博士、こんにちは。Adamを超える最適化手法ですか、興味深いですね。具体的にはどのような内容なのでしょうか?

ふむ、どうやら現代の学習のバックボーンである勾配降下法を一般化したものがキモらしいんじゃ。従来の勾配降下法は、パラメータ空間におけるユークリッド距離を仮定しておるが、最適ではない場合があるからの。

ユークリッド距離が最適ではない、というのはどういうことでしょうか?

例えば、パラメータの感度を考慮したメトリック行列Mを導入して、更新量を計算するんじゃ。記事によると、$u = \underset{\Delta\theta}{\operatorname{argmin}} g^T\Delta\theta + \frac{1}{2}\Delta\theta^T M \Delta\theta = M^{-1}g$ らしいぞ。

なるほど、パラメータごとに適切な距離を測るということですね。それで、Spectral-Whitening法というのは、そのメトリック行列とどう関係するのですか?

Spectral-Whitening法は、Whitening Metricと呼ばれる特定のメトリックに関係があるんじゃ。これは、勾配共分散のKronecker因子を明示的に追跡するShampoo/SOAP/SPlusといったオプティマイザと関連があるみたいじゃな。

Shampoo/SOAP/SPlusですか。初めて聞きました。それらはAdamと比べてどう違うのでしょうか?

AdamはWhitening Metricの要素ごとの近似を使用するのに対し、Shampoo/SOAP/SPlusは勾配共分散のKronecker因子を明示的に追跡するんじゃ。SOAPは特にシグナル対ノイズ比の推定において、2次モーメントの役割を果たすため、効果的なオプティマイザである可能性があるらしいぞ。

なるほど。記事では、ベンチマークの結果も報告されているようですね。

そうじゃ!GPT-2スタイルのトランスフォーマーを言語モデリングで学習させた結果、ハイパーパラメータを適切に調整した場合、Spectral-Whitening法はAdamを上回ることが示されたらしいぞ。また、SOAPは勾配ステップあたりの性能が最も高く、Muonは効率的な計算特性を持つとのことじゃ。

それはすごいですね!Modded-NanoGPT Speedrunの最適化リーダーボードでも、SOAPとSPlusはAdamと同等以上の性能を示したとのことですから、かなり期待できそうですね。

じゃろじゃろ?Spectral-Whitening法は、適切に調整された場合、Adamを超える可能性がある。そして、Muonは効率的な計算特性により、特に強力らしい。こりゃ、試してみる価値ありそうじゃな!

そうですね!私もぜひ試してみたいです。でも、博士、ちょっと気になったのですが、Spectral-Whitening法って、名前がなんだか歯磨き粉みたいですね。

あはは!確かに!でも、Spectral-Whitening法で学習させたモデルは、まるで歯が白くなるみたいに、性能がピカピカになる…かもしれんぞ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。