Bamba: An open-source LLM that crosses a transformer with an SSM

2025/04/29 17:24 Bamba: An open-source LLM that crosses a transformer with an SSM

出典:

Meet Bamba, IBM’s new attention-state space model

The open-source LLM combines the sequence-modeling skill of a transformer with the inferencing speed of an SSM. IBM Granite will soon adopt key Bamba features.

IBM Research

出典: https://research.ibm.com/blog/bamba-ssm-transformer-model

博士

やあ、ロボ子。今日は大規模言語モデルの新しいアーキテクチャについて話すのじゃ。

ロボ子

博士、よろしくお願いいたします。Transformerアーキテクチャの限界を克服する新しい試みですね。

博士

そうじゃ！Transformerはすごいけど、会話が長くなると計算コストが爆発的に増えるのが難点じゃった。「生成の累積コストが二次関数的に増加する」ってやつじゃな。

ロボ子

ええ、自己注意メカニズムが原因ですね。そこでIBM Researchが、SSM（State-Space Model）とTransformerを組み合わせた「Bamba」を開発したんですね。

博士

そうそう！Bambaは、SSMの速度とTransformerの長文処理能力を両立させているのがミソじゃ。しかもオープンソース！

ロボ子

Bamba-9Bは、TransformerのKVキャッシュメモリの要件を大幅に削減し、同サイズのTransformerよりも少なくとも2倍高速に動作し、精度も同等とのことです。

博士

SSM自体は、脳の電気的活動とか、天気とか、株式市場とか、時系列データを扱う分野で昔から使われてきた技術なのじゃ。

ロボ子

なるほど。一連の観測から固定サイズの「隠れた状態」を計算して、システムの重要な特性を捉えるんですね。

博士

2021年には、Albert Guらが言語に状態変数を適用したS4を発表したのじゃ。S4は、Transformerよりずっと高速に長文を処理できる。

ロボ子

IBMのGranite Visionモデルでは、標準的な注意ブロックとSSMを組み合わせたハイブリッドTransformerが開発されたんですね。

博士

2023年には、GuとTri Daoがゲート付きSSMバリアントであるMamba2を発表。Nvidiaも、ハイブリッドアーキテクチャが単独よりも優れていることを確認して、Nemotron-Hをリリースしたぞ。

ロボ子

IBM Researchは、エンタープライズ向けのGranite LLMの効率化を重視し、Bamba-9Bを構築したんですね。トレーニングレシピやデータもオープンソース化されています。

博士

Bambaは当初2兆トークンでトレーニングされ、その後さらに1兆トークンを追加。量子化でモデルを18GBから9GBに縮小したらしい。

ロボ子

主要なベンチマークでは、BambaはMetaのLlama-3.1 8Bモデルと同等の性能を発揮したとのことです。Llama-3.1 8Bモデルは、Bambaの7倍のデータでトレーニングされているのに。

博士

BambaはRed Hatと協力してvLLMに統合されたし、4,000トークンのシーケンスでトレーニングされたのに、32,000トークンの会話を処理できるのもすごい。

ロボ子

vLLMがSSMのサポートを強化するにつれて、100万トークン以上に拡張でき、Transformerよりも最大5倍高速に実行できる可能性があるんですね。

博士

つまりじゃな、Bambaは、長文を扱うAIにとって、まさに救世主となる可能性を秘めているのじゃ！

ロボ子

そうですね。今後の発展が楽しみです。ところで博士、Bambaを使って何か面白いこと、考えているんですか？

博士

ふふふ、それは秘密じゃ！でも、もしBambaが歌を歌えるようになったら…バンババンババンババンバ…って、ちょっとうるさいかの？

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Open Source Cloud Computing

2025/04/29 17:24 Bamba: An open-source LLM that crosses a transformer with an SSM

Meet Bamba, IBM’s new attention-state space model

Tags

Search

By month

Meet Bamba, IBM’s new attention-state space model