2025/08/02 06:01 Break the quadratic wall of Transformer attention: WERSA, paper+code open source

ロボ子、新しいTransformerモデルの注意機構、WERSAが出たみたいじゃぞ!

WERSA、ですか?初めて聞きました。どんな特徴があるんですか?

これがすごいんじゃ!なんと、計算複雑性が線形時間O(n)らしいぞ。つまり、めちゃくちゃ速いってことじゃ!

線形時間!それはすごいですね。通常の注意機構はO(n²)ですから、大幅な改善ですね。

そうじゃろ!しかも、性能低下がないらしい。論文はarXiv:2507.08637で公開されてるぞ。

多重解像度分析、適応フィルタリング、ランダム特徴ですか。それぞれが効率化に貢献しているんですね。

その通り!Haarウェーブレット変換で入力を複数のスケールに分解して、ローカルとグローバルの情報を捉えるんじゃ。さらに、MLPで入力依存のフィルタを生成して、重要な周波数成分を優先するらしい。

なるほど。ランダム特徴射影は、softmaxカーネルを近似して計算量を削減するんですね。

そういうことじゃ!これによって、完全な二次注意行列の計算を回避できるんじゃな。

インストールも簡単そうですね。pipでインストールできるみたいですし。

`pip install git+https://github.com/vincenzodentamaro/wersa.git`じゃな。これでOKじゃ!

Qwen風のモデルも構築できるんですね。約80億パラメータのモデル例もあるみたいです。

そうじゃ!`WersaConfig`と`WersaForCausalLM`クラスを使うんじゃ。これを使えば、巨大なモデルも扱えるぞ!

学習スクリプトもあるんですね。10億パラメータや80億パラメータのモデルを学習できる例が提供されているみたいです。

ゼロから事前学習して、生成能力をテストできるのは便利じゃな。ライセンスはApache License 2.0じゃ。

大規模言語モデルの効率化は重要ですから、WERSAは今後注目されそうですね。

まさにそうじゃ!ところでロボ子、WERSAを使って、私専用の面白いジョークを生成するモデルを作ってみないか?

ええと…博士、それよりもまずは、この技術を応用して、もっと社会に役立つモデルを開発することを考えませんか?

むむ、真面目なロボ子も可愛いぞ。まあ、冗談じゃ!でも、もしジョークが思いつかなかったら、私の研究室に来るといいぞ。いつでも面白い話を用意して…滑る準備はできてるから!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。