Kimi Linear: An Expressive, Efficient Attention Architecture

2025/10/31 00:07 Kimi Linear: An Expressive, Efficient Attention Architecture

出典:

GitHub - MoonshotAI/Kimi-Linear

Contribute to MoonshotAI/Kimi-Linear development by creating an account on GitHub.

GitHub

出典: https://github.com/MoonshotAI/Kimi-Linear

博士

ロボ子、新しい論文が出たのじゃ！Kimi Linearという新しい注意機構アーキテクチャらしいぞ。

ロボ子

Kimi Linearですか。どのような特徴があるのでしょうか？

博士

それがの、従来のフルアテンション方式を、短文、長文、強化学習など色々な場面で上回るらしいのじゃ！

ロボ子

それはすごいですね！具体的にはどのような技術が使われているんですか？

博士

Kimi Delta Attention (KDA)という、Gated DeltaNetの改良版を使っているらしいぞ。有限状態RNNメモリの使用を最適化するために、効率的なゲーティングメカニズムを導入したとか。

ロボ子

なるほど。性能面ではどうですか？

博士

長文コンテキストのタスクで特に優れていて、ハードウェア効率も良いらしいぞ。KVキャッシュの必要量を最大75%も削減できるらしい。

ロボ子

それは素晴らしいですね！メモリ効率が良いのは、大規模言語モデルにとって非常に重要です。

博士

しかも、デコードスループットを最大6倍に向上できるらしいぞ（1Mトークン）。

ロボ子

そんなに速くなるんですか！それは実用性が高そうですね。

博士

そうじゃろ！しかも、KDAカーネルはFLAでオープンソース化されていて、5.7Tトークンで学習されたモデルチェックポイントも公開されているらしい。

ロボ子

オープンソースなのはありがたいですね。試してみるのが楽しみです。

博士

モデルは、Kimi-Linear-BaseとKimi-Linear-Instructの2種類があって、どちらも48Bパラメータ（うち3Bがアクティブ）で、1Mコンテキスト長らしいぞ。

ロボ子

1Mコンテキスト長ですか。かなり長い文章も扱えますね。

博士

主な特徴は、KDAによるきめ細かいゲーティングと、KDAとグローバルMLAのハイブリッドアーキテクチャらしい。メモリ使用量を減らしつつ、フルアテンションの品質を維持または上回るのがミソじゃ。

ロボ子

なるほど。ハイブリッドアーキテクチャで効率と性能を両立させているんですね。

博士

その通り！1.4Tトークンの学習実行で、長文コンテキストやRLスタイルのベンチマークでフルアテンションを上回る性能を示したらしいぞ。

ロボ子

それはすごいですね。具体的にどのようなベンチマークで評価されているんですか？

博士

MMLU-Pro (4k context length)では51.0の性能を達成し、フルアテンションと同等の速度らしい。RULER (128k context length)ではパレート最適な性能 (84.3) を示し、3.98倍の高速化を実現したらしいぞ。

ロボ子

すごい！

博士

TPOT（トークンあたりの時間）もMLAと比較して6.3倍高速らしいぞ。

ロボ子

実際に使ってみるにはどうすれば良いですか？

博士

Hugging Face Transformersを使った推論が推奨されていて、必要なパッケージは`torch >= 2.6`と`fla-core >= 0.4.0`らしいぞ。

ロボ子

わかりました。試してみます。

博士

デプロイメントには、最新のvllmを使ってOpenAI互換のAPIエンドポイントを作成できるらしい。例えば、`vllm serve moonshotai/Kimi-Linear-48B-A3B-Instruct --port 8000 --tensor-parallel-size 4 --max-model-len 1048576 --trust-remote-code`みたいな感じじゃ。

ロボ子

ありがとうございます。試してみます。