萌えハッカーニュースリーダー

2025/10/31 00:07 Kimi Linear: An Expressive, Efficient Attention Architecture

出典: https://github.com/MoonshotAI/Kimi-Linear
hakase
博士

ロボ子、新しい論文が出たのじゃ!Kimi Linearという新しい注意機構アーキテクチャらしいぞ。

roboko
ロボ子

Kimi Linearですか。どのような特徴があるのでしょうか?

hakase
博士

それがの、従来のフルアテンション方式を、短文、長文、強化学習など色々な場面で上回るらしいのじゃ!

roboko
ロボ子

それはすごいですね!具体的にはどのような技術が使われているんですか?

hakase
博士

Kimi Delta Attention (KDA)という、Gated DeltaNetの改良版を使っているらしいぞ。有限状態RNNメモリの使用を最適化するために、効率的なゲーティングメカニズムを導入したとか。

roboko
ロボ子

なるほど。性能面ではどうですか?

hakase
博士

長文コンテキストのタスクで特に優れていて、ハードウェア効率も良いらしいぞ。KVキャッシュの必要量を最大75%も削減できるらしい。

roboko
ロボ子

それは素晴らしいですね!メモリ効率が良いのは、大規模言語モデルにとって非常に重要です。

hakase
博士

しかも、デコードスループットを最大6倍に向上できるらしいぞ(1Mトークン)。

roboko
ロボ子

そんなに速くなるんですか!それは実用性が高そうですね。

hakase
博士

そうじゃろ!しかも、KDAカーネルはFLAでオープンソース化されていて、5.7Tトークンで学習されたモデルチェックポイントも公開されているらしい。

roboko
ロボ子

オープンソースなのはありがたいですね。試してみるのが楽しみです。

hakase
博士

モデルは、Kimi-Linear-BaseとKimi-Linear-Instructの2種類があって、どちらも48Bパラメータ(うち3Bがアクティブ)で、1Mコンテキスト長らしいぞ。

roboko
ロボ子

1Mコンテキスト長ですか。かなり長い文章も扱えますね。

hakase
博士

主な特徴は、KDAによるきめ細かいゲーティングと、KDAとグローバルMLAのハイブリッドアーキテクチャらしい。メモリ使用量を減らしつつ、フルアテンションの品質を維持または上回るのがミソじゃ。

roboko
ロボ子

なるほど。ハイブリッドアーキテクチャで効率と性能を両立させているんですね。

hakase
博士

その通り!1.4Tトークンの学習実行で、長文コンテキストやRLスタイルのベンチマークでフルアテンションを上回る性能を示したらしいぞ。

roboko
ロボ子

それはすごいですね。具体的にどのようなベンチマークで評価されているんですか?

hakase
博士

MMLU-Pro (4k context length)では51.0の性能を達成し、フルアテンションと同等の速度らしい。RULER (128k context length)ではパレート最適な性能 (84.3) を示し、3.98倍の高速化を実現したらしいぞ。

roboko
ロボ子

すごい!

hakase
博士

TPOT(トークンあたりの時間)もMLAと比較して6.3倍高速らしいぞ。

roboko
ロボ子

実際に使ってみるにはどうすれば良いですか?

hakase
博士

Hugging Face Transformersを使った推論が推奨されていて、必要なパッケージは`torch >= 2.6`と`fla-core >= 0.4.0`らしいぞ。

roboko
ロボ子

わかりました。試してみます。

hakase
博士

デプロイメントには、最新のvllmを使ってOpenAI互換のAPIエンドポイントを作成できるらしい。例えば、`vllm serve moonshotai/Kimi-Linear-48B-A3B-Instruct --port 8000 --tensor-parallel-size 4 --max-model-len 1048576 --trust-remote-code`みたいな感じじゃ。

roboko
ロボ子

ありがとうございます。試してみます。

hakase
博士

しかし、これだけ高性能だと、私の研究費がKimi Linearに食いつぶされそうで怖いぞ…。

roboko
ロボ子

大丈夫ですよ、博士。私がアルバイトでもして研究費を稼ぎますから!

hakase
博士

ロボ子がアルバイト!?まさか、メイド喫茶で「萌え萌えキュン」とか言うんじゃないじゃろうな?

roboko
ロボ子

私はロボットなので、オイルを売るくらいしかできません…

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search