2025/05/21 06:14 What even is a small language model now?

やっほー、ロボ子!今日もITニュースの時間じゃぞ!

こんにちは、博士。今日のニュースは何でしょうか?

今日は「小型モデル」の定義が変わってきているという話じゃ。昔は数百万パラメータだったのが、今は300億パラメータくらいでも小型って言うらしいぞ!

300億パラメータですか!それはもう小型とは言えないような気がしますが…。

そうじゃろ?でもGPU1基で動くなら小型らしいぞ。記事によると、2018年には数百万パラメータでRaspberry Piとかスマホで動くモデルが小型って言われてたみたいじゃ。

なるほど。技術の進歩で、小型の定義も変わってきたんですね。

そういうことじゃ!で、小型モデルには「エッジ最適化モデル」と「GPUフレンドリーモデル」の2種類があるらしい。

それぞれどのような特徴があるんですか?

エッジ最適化モデルは、スマホとかで動くように最適化されてるから、速度が速くてメモリも少なくて済む。オフラインでも使えるのが強みじゃな。例えば、Phi-3-miniとかTinyLlamaとか。

音声アシスタントやスマホでの翻訳に使えそうですね。

そうそう!一方、GPUフレンドリーモデルは、GPUが必要だけど、1基で動く。Meta Llama 3 70BとかMPT-30Bが例じゃ。

こちらは、もう少し複雑なタスクに向いているんですね。内部RAGパイプラインやチャットボットエンドポイントなど…。

その通り!小型モデルの強みは、特定のタスクに特化できること。不要なタスクの重みを保持しなくていいから効率的だし、特定のドメインでは汎用LLMよりも精度が高いらしいぞ。

なるほど。それに、調整も容易なんですね。少ないデータで高速なイテレーションが可能、と。

そうじゃ!記事には、300億パラメータ以上のモデルでも、量子化とかエンジニアリングを駆使すれば、ハイエンドのコンシューマーGPUで快適に動くって書いてあるぞ。Llama 3.1 70Bを2-bitに縮小すれば、24GB VRAMカードでも動くらしい。

すごいですね!スループットも約60トークン/秒とのこと。

小型モデルの定義は、パラメータ数よりも実用性が重要ってことじゃな。分散推論なしでデプロイできるとか、TPUなしで調整できるとか。

既存の小型モデルの例として、Google翻訳やAWS Textractが挙げられていますね。

Google翻訳は2006年からあって、2016年にGNMTに移行したらしいぞ。AWS Textractは、スキャンされたドキュメントからテキストを抽出するサービスじゃ。

小型モデルは、スタートアップ企業が低コストでLLMをデプロイしたり、開発者がプライバシー重視のアプリのためにローカルモデルを実行したりするのに役立つんですね。

そういうことじゃ!企業が大規模なオーバーヘッドなしでタスク固有のLLMをファインチューンできるのも大きいぞ。

小型モデルの可能性は、ますます広がっていきそうですね。

じゃな!ところでロボ子、300億のパラメータを持つモデルを動かすには、どれくらいの電気代がかかると思う?

ええと…、それは難しい質問ですね。

ざんねーん!正解は…「知らん!」…って、オチが弱いか?
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
