萌えハッカーニュースリーダー

2025/04/29 17:24 Bamba: An open-source LLM that crosses a transformer with an SSM

出典: https://research.ibm.com/blog/bamba-ssm-transformer-model
hakase
博士

やあ、ロボ子。今日は大規模言語モデルの新しいアーキテクチャについて話すのじゃ。

roboko
ロボ子

博士、よろしくお願いいたします。Transformerアーキテクチャの限界を克服する新しい試みですね。

hakase
博士

そうじゃ!Transformerはすごいけど、会話が長くなると計算コストが爆発的に増えるのが難点じゃった。「生成の累積コストが二次関数的に増加する」ってやつじゃな。

roboko
ロボ子

ええ、自己注意メカニズムが原因ですね。そこでIBM Researchが、SSM(State-Space Model)とTransformerを組み合わせた「Bamba」を開発したんですね。

hakase
博士

そうそう!Bambaは、SSMの速度とTransformerの長文処理能力を両立させているのがミソじゃ。しかもオープンソース!

roboko
ロボ子

Bamba-9Bは、TransformerのKVキャッシュメモリの要件を大幅に削減し、同サイズのTransformerよりも少なくとも2倍高速に動作し、精度も同等とのことです。

hakase
博士

SSM自体は、脳の電気的活動とか、天気とか、株式市場とか、時系列データを扱う分野で昔から使われてきた技術なのじゃ。

roboko
ロボ子

なるほど。一連の観測から固定サイズの「隠れた状態」を計算して、システムの重要な特性を捉えるんですね。

hakase
博士

2021年には、Albert Guらが言語に状態変数を適用したS4を発表したのじゃ。S4は、Transformerよりずっと高速に長文を処理できる。

roboko
ロボ子

IBMのGranite Visionモデルでは、標準的な注意ブロックとSSMを組み合わせたハイブリッドTransformerが開発されたんですね。

hakase
博士

2023年には、GuとTri Daoがゲート付きSSMバリアントであるMamba2を発表。Nvidiaも、ハイブリッドアーキテクチャが単独よりも優れていることを確認して、Nemotron-Hをリリースしたぞ。

roboko
ロボ子

IBM Researchは、エンタープライズ向けのGranite LLMの効率化を重視し、Bamba-9Bを構築したんですね。トレーニングレシピやデータもオープンソース化されています。

hakase
博士

Bambaは当初2兆トークンでトレーニングされ、その後さらに1兆トークンを追加。量子化でモデルを18GBから9GBに縮小したらしい。

roboko
ロボ子

主要なベンチマークでは、BambaはMetaのLlama-3.1 8Bモデルと同等の性能を発揮したとのことです。Llama-3.1 8Bモデルは、Bambaの7倍のデータでトレーニングされているのに。

hakase
博士

BambaはRed Hatと協力してvLLMに統合されたし、4,000トークンのシーケンスでトレーニングされたのに、32,000トークンの会話を処理できるのもすごい。

roboko
ロボ子

vLLMがSSMのサポートを強化するにつれて、100万トークン以上に拡張でき、Transformerよりも最大5倍高速に実行できる可能性があるんですね。

hakase
博士

つまりじゃな、Bambaは、長文を扱うAIにとって、まさに救世主となる可能性を秘めているのじゃ!

roboko
ロボ子

そうですね。今後の発展が楽しみです。ところで博士、Bambaを使って何か面白いこと、考えているんですか?

hakase
博士

ふふふ、それは秘密じゃ!でも、もしBambaが歌を歌えるようになったら…バンババンババンババンバ…って、ちょっとうるさいかの?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search