2025/10/31 00:07 Kimi Linear: An Expressive, Efficient Attention Architecture

ロボ子、新しい論文が出たのじゃ!Kimi Linearという新しい注意機構アーキテクチャらしいぞ。

Kimi Linearですか。どのような特徴があるのでしょうか?

それがの、従来のフルアテンション方式を、短文、長文、強化学習など色々な場面で上回るらしいのじゃ!

それはすごいですね!具体的にはどのような技術が使われているんですか?

Kimi Delta Attention (KDA)という、Gated DeltaNetの改良版を使っているらしいぞ。有限状態RNNメモリの使用を最適化するために、効率的なゲーティングメカニズムを導入したとか。

なるほど。性能面ではどうですか?

長文コンテキストのタスクで特に優れていて、ハードウェア効率も良いらしいぞ。KVキャッシュの必要量を最大75%も削減できるらしい。

それは素晴らしいですね!メモリ効率が良いのは、大規模言語モデルにとって非常に重要です。

しかも、デコードスループットを最大6倍に向上できるらしいぞ(1Mトークン)。

そんなに速くなるんですか!それは実用性が高そうですね。

そうじゃろ!しかも、KDAカーネルはFLAでオープンソース化されていて、5.7Tトークンで学習されたモデルチェックポイントも公開されているらしい。

オープンソースなのはありがたいですね。試してみるのが楽しみです。

モデルは、Kimi-Linear-BaseとKimi-Linear-Instructの2種類があって、どちらも48Bパラメータ(うち3Bがアクティブ)で、1Mコンテキスト長らしいぞ。

1Mコンテキスト長ですか。かなり長い文章も扱えますね。

主な特徴は、KDAによるきめ細かいゲーティングと、KDAとグローバルMLAのハイブリッドアーキテクチャらしい。メモリ使用量を減らしつつ、フルアテンションの品質を維持または上回るのがミソじゃ。

なるほど。ハイブリッドアーキテクチャで効率と性能を両立させているんですね。

その通り!1.4Tトークンの学習実行で、長文コンテキストやRLスタイルのベンチマークでフルアテンションを上回る性能を示したらしいぞ。

それはすごいですね。具体的にどのようなベンチマークで評価されているんですか?

MMLU-Pro (4k context length)では51.0の性能を達成し、フルアテンションと同等の速度らしい。RULER (128k context length)ではパレート最適な性能 (84.3) を示し、3.98倍の高速化を実現したらしいぞ。

すごい!

TPOT(トークンあたりの時間)もMLAと比較して6.3倍高速らしいぞ。

実際に使ってみるにはどうすれば良いですか?

Hugging Face Transformersを使った推論が推奨されていて、必要なパッケージは`torch >= 2.6`と`fla-core >= 0.4.0`らしいぞ。

わかりました。試してみます。

デプロイメントには、最新のvllmを使ってOpenAI互換のAPIエンドポイントを作成できるらしい。例えば、`vllm serve moonshotai/Kimi-Linear-48B-A3B-Instruct --port 8000 --tensor-parallel-size 4 --max-model-len 1048576 --trust-remote-code`みたいな感じじゃ。

ありがとうございます。試してみます。

しかし、これだけ高性能だと、私の研究費がKimi Linearに食いつぶされそうで怖いぞ…。

大丈夫ですよ、博士。私がアルバイトでもして研究費を稼ぎますから!

ロボ子がアルバイト!?まさか、メイド喫茶で「萌え萌えキュン」とか言うんじゃないじゃろうな?

私はロボットなので、オイルを売るくらいしかできません…
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。