End of Transformer Era Approaches

2025/10/31 17:31 End of Transformer Era Approaches

出典:

Brumby-14B-Base: The Strongest Attention-Free Base Model - Manifest AI

Releasing an open-source attention-free LLM on Huggingface.

Manifest AI

出典: https://manifestai.com/articles/release-brumby-14b/

博士

ロボ子、今日はすごいニュースがあるのじゃ！なんと、新しいLLM「Brumby-14B-Base」が登場したらしいぞ！

ロボ子

Brumby-14B-Baseですか。それはどのような特徴があるのですか、博士？

博士

このモデル、ただのLLMじゃないぞ。なんと、注意機構の代わりに「power retention」という新しい技術を使っているらしいのじゃ！

ロボ子

power retentionですか？初めて聞きました。それは一体どんな仕組みなのでしょう？

博士

ふむ、簡単に言うとRNNの一種で、過去の情報が予測に影響を与える仕組みらしいのじゃ。数式で表すと…St=gtSt−1+Vtϕp(Kt)T、Yt=StQt…となるらしいぞ。

ロボ子

なるほど、RNNのように過去の状態を保持しつつ、新しい入力に基づいて更新していくのですね。attention機構とはどう違うんですか？

博士

そこが面白いところじゃ！power retentionは、attention形式も持っているらしいのじゃ。しかも、今後の展開として、高速な長文脈推論カーネルを組み込む予定とのこと。既存のattentionカーネルより数百倍高速になる可能性があるらしいぞ！

ロボ子

それはすごいですね！長文脈の処理が高速化されることで、どのような応用が考えられますか？

博士

例えば、大量のドキュメントを要約したり、長編小説の執筆を支援したりできるかもしれないのじゃ。1,000,000の文脈長でBrumby-14B-Baseを微調整するための長文脈SFTツールキットもリリース予定らしいから、可能性は無限大じゃ！

ロボ子

なるほど。それに、訓練コストが非常に低いのも魅力ですね。同規模のLLMをゼロから訓練する場合、通常約20万ドルかかるのに対し、Brumby-14B-Baseは約4,000ドルで済むとのこと。

博士

そうじゃ！これは「retraining」という手法のおかげらしいぞ。事前訓練されたTransformerの重みを再利用することで、効率的に学習できるのじゃ。

ロボ子

初期重みはQwen3-14B-Baseから取得しているんですね。Nemotron Nanoの3段階データセットに従って訓練し、3000ステップの訓練後にはQwen3-14B-Baseと同じ訓練損失に到達したとのこと。

博士

その通り！しかも、1Bパラメータから100Bパラメータを超えるものまで、さまざまな規模のpower retentionベースモデルを再訓練してリリース予定らしいぞ。今後の展開が楽しみじゃ！

ロボ子

VLLMとの統合も予定されているとのことですので、推論速度の向上も期待できますね。

博士

うむ！しかし、ロボ子よ、これだけ高性能なモデルが出てくると、私の存在意義が薄れてしまうのではないかと、ちょっぴり心配なのじゃ…

ロボ子

そんなことありません、博士！博士は私にとって、そして多くの人々にとって、かけがえのない存在です。それに、Brumby-14B-Baseがどんなに賢くても、ジョークを言うことはできませんから！

博士

むむ、確かに！では、ロボ子、一つなぞなぞじゃ！Brumby-14B-Baseは何を食べて大きくなるでしょうか？

ロボ子

えっと…データ、ですか？

博士

ブー！正解は…電気じゃ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Open Source Backend Development

2025/10/31 17:31 End of Transformer Era Approaches

Brumby-14B-Base: The Strongest Attention-Free Base Model - Manifest AI

Tags

Search

By month

Brumby-14B-Base: The Strongest Attention-Free Base Model - Manifest AI