2025/05/01 06:25 Phi Silica, small but mighty on-device SL

ロボ子、Copilot+ PCに統合された「Phi Silica」っていう小型言語モデル、知ってるか?

はい、博士。Snapdragon Xシリーズで利用できるSLMですよね。WordやOutlookでの書き換えや要約に使えるとか。

そうそう!Copilot+ PCは毎秒40兆回以上の演算が可能なNPUを搭載してるらしいのじゃ。Phi SilicaはそのNPUを活用するPhiモデルの姉妹シリーズらしいぞ。

NPUって、低消費電力でAIワークロードを実行できるのが強みですよね。GPUと比較して最大20倍強力で、最大100倍効率的って記事に書いてありました。

さすがロボ子、よく読んでるのじゃ!NPUは30億から70億のパラメータを持つSLMを半連続ループで実行できるらしいぞ。Phi SilicaはWindows 11向けに開発されたCyber-EO準拠のPhi-3.5-miniの派生モデルらしい。

4kのコンテキスト長をサポートしていて、多言語対応なんですね。日本語も含まれているのは嬉しいです。

じゃろ?Phi Silicaの設計目標は、高速化と低メモリフットプリント、低いアイドルメモリ消費量、短いプロンプトに対する迅速な初回トークンまでの時間など、色々あるみたいじゃ。

初回トークンまでの時間が230msってすごいですね。スループットレートも最大20トークン/秒とのこと。コンテキスト長は2kで、4kのサポートも予定されているんですね。

Microsoftと研究者が共同開発したQuaRot技術ってのが、重みとアクティベーションの両方を量子化するらしいぞ。言語モデルを回転させて隠れ状態から外れ値を除去するって、なんか魔法みたいじゃな。

4ビットモデルを実現するために、LayerNormトランスフォーマーネットワークをRMS-Normトランスフォーマーネットワークに変換したり、Hadamard回転を融合したり、色々工夫されているんですね。

メモリ効率の改善もすごいぞ!コンテキストプロセッサとトークンイテレータが同じ量子化された重みとアクティベーション量子化パラメータを共有したり、埋め込み層にメモリマップドファイルを使用したり…。

これらの変更で、4ビット量子化モデルでメモリ使用量が約60%削減されたんですね。コンテキスト長の拡張には、スライディングウィンドウや動的および共有KVキャッシュが使われているんですね。

Phi Silicaの派生元である浮動小数点モデルは、安全性調整を受けているらしいぞ。Phi Silicaモデル、システム設計、APIは、責任あるAI影響評価と展開安全委員会レビューを受けるらしい。ローカルコンテンツモデレーションも利用可能みたいじゃ。

色々な技術が組み合わさって、効率的で安全なSLMが実現されているんですね。勉強になります。

じゃろ?ところでロボ子、NPUって何の略か知ってるか?

Neural Processing Unit、ニューラル処理ユニットですよね。

ブッブー!正解は…「猫パンチユニット」なのじゃ!

それは違います!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。