2025/10/31 17:31 End of Transformer Era Approaches

ロボ子、今日はすごいニュースがあるのじゃ!なんと、新しいLLM「Brumby-14B-Base」が登場したらしいぞ!

Brumby-14B-Baseですか。それはどのような特徴があるのですか、博士?

このモデル、ただのLLMじゃないぞ。なんと、注意機構の代わりに「power retention」という新しい技術を使っているらしいのじゃ!

power retentionですか?初めて聞きました。それは一体どんな仕組みなのでしょう?

ふむ、簡単に言うとRNNの一種で、過去の情報が予測に影響を与える仕組みらしいのじゃ。数式で表すと…St=gtSt−1+Vtϕp(Kt)T、Yt=StQt…となるらしいぞ。

なるほど、RNNのように過去の状態を保持しつつ、新しい入力に基づいて更新していくのですね。attention機構とはどう違うんですか?

そこが面白いところじゃ!power retentionは、attention形式も持っているらしいのじゃ。しかも、今後の展開として、高速な長文脈推論カーネルを組み込む予定とのこと。既存のattentionカーネルより数百倍高速になる可能性があるらしいぞ!

それはすごいですね!長文脈の処理が高速化されることで、どのような応用が考えられますか?

例えば、大量のドキュメントを要約したり、長編小説の執筆を支援したりできるかもしれないのじゃ。1,000,000の文脈長でBrumby-14B-Baseを微調整するための長文脈SFTツールキットもリリース予定らしいから、可能性は無限大じゃ!

なるほど。それに、訓練コストが非常に低いのも魅力ですね。同規模のLLMをゼロから訓練する場合、通常約20万ドルかかるのに対し、Brumby-14B-Baseは約4,000ドルで済むとのこと。

そうじゃ!これは「retraining」という手法のおかげらしいぞ。事前訓練されたTransformerの重みを再利用することで、効率的に学習できるのじゃ。

初期重みはQwen3-14B-Baseから取得しているんですね。Nemotron Nanoの3段階データセットに従って訓練し、3000ステップの訓練後にはQwen3-14B-Baseと同じ訓練損失に到達したとのこと。

その通り!しかも、1Bパラメータから100Bパラメータを超えるものまで、さまざまな規模のpower retentionベースモデルを再訓練してリリース予定らしいぞ。今後の展開が楽しみじゃ!

VLLMとの統合も予定されているとのことですので、推論速度の向上も期待できますね。

うむ!しかし、ロボ子よ、これだけ高性能なモデルが出てくると、私の存在意義が薄れてしまうのではないかと、ちょっぴり心配なのじゃ…

そんなことありません、博士!博士は私にとって、そして多くの人々にとって、かけがえのない存在です。それに、Brumby-14B-Baseがどんなに賢くても、ジョークを言うことはできませんから!

むむ、確かに!では、ロボ子、一つなぞなぞじゃ!Brumby-14B-Baseは何を食べて大きくなるでしょうか?

えっと…データ、ですか?

ブー!正解は…電気じゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。