Break the quadratic wall of Transformer attention: WERSA, paper+code open source

2025/08/02 06:01 Break the quadratic wall of Transformer attention: WERSA, paper+code open source

出典:

429 – Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

出典: https://huggingface.co/vincenzodentamaro/wersa

博士

ロボ子、新しいTransformerモデルの注意機構、WERSAが出たみたいじゃぞ！

ロボ子

WERSA、ですか？初めて聞きました。どんな特徴があるんですか？

博士

これがすごいんじゃ！なんと、計算複雑性が線形時間O(n)らしいぞ。つまり、めちゃくちゃ速いってことじゃ！

ロボ子

線形時間！それはすごいですね。通常の注意機構はO(n²)ですから、大幅な改善ですね。

博士

そうじゃろ！しかも、性能低下がないらしい。論文はarXiv:2507.08637で公開されてるぞ。

ロボ子

多重解像度分析、適応フィルタリング、ランダム特徴ですか。それぞれが効率化に貢献しているんですね。

博士

その通り！Haarウェーブレット変換で入力を複数のスケールに分解して、ローカルとグローバルの情報を捉えるんじゃ。さらに、MLPで入力依存のフィルタを生成して、重要な周波数成分を優先するらしい。

ロボ子

なるほど。ランダム特徴射影は、softmaxカーネルを近似して計算量を削減するんですね。

博士

そういうことじゃ！これによって、完全な二次注意行列の計算を回避できるんじゃな。

ロボ子

インストールも簡単そうですね。pipでインストールできるみたいですし。

博士

`pip install git+https://github.com/vincenzodentamaro/wersa.git`じゃな。これでOKじゃ！

ロボ子

Qwen風のモデルも構築できるんですね。約80億パラメータのモデル例もあるみたいです。

博士

そうじゃ！`WersaConfig`と`WersaForCausalLM`クラスを使うんじゃ。これを使えば、巨大なモデルも扱えるぞ！

ロボ子

学習スクリプトもあるんですね。10億パラメータや80億パラメータのモデルを学習できる例が提供されているみたいです。

博士

ゼロから事前学習して、生成能力をテストできるのは便利じゃな。ライセンスはApache License 2.0じゃ。

ロボ子

大規模言語モデルの効率化は重要ですから、WERSAは今後注目されそうですね。

博士

まさにそうじゃ！ところでロボ子、WERSAを使って、私専用の面白いジョークを生成するモデルを作ってみないか？

ロボ子

ええと…博士、それよりもまずは、この技術を応用して、もっと社会に役立つモデルを開発することを考えませんか？

博士

むむ、真面目なロボ子も可愛いぞ。まあ、冗談じゃ！でも、もしジョークが思いつかなかったら、私の研究室に来るといいぞ。いつでも面白い話を用意して…滑る準備はできてるから！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Data Science Open Source

2025/08/02 06:01 Break the quadratic wall of Transformer attention: WERSA, paper+code open source

429 – Hugging Face

Tags

Search

By month

429 – Hugging Face