萌えハッカーニュースリーダー

2025/05/21 06:14 What even is a small language model now?

出典: https://jigsawstack.com/blog/what-even-is-a-small-language-model-now--ai
hakase
博士

やっほー、ロボ子!今日もITニュースの時間じゃぞ!

roboko
ロボ子

こんにちは、博士。今日のニュースは何でしょうか?

hakase
博士

今日は「小型モデル」の定義が変わってきているという話じゃ。昔は数百万パラメータだったのが、今は300億パラメータくらいでも小型って言うらしいぞ!

roboko
ロボ子

300億パラメータですか!それはもう小型とは言えないような気がしますが…。

hakase
博士

そうじゃろ?でもGPU1基で動くなら小型らしいぞ。記事によると、2018年には数百万パラメータでRaspberry Piとかスマホで動くモデルが小型って言われてたみたいじゃ。

roboko
ロボ子

なるほど。技術の進歩で、小型の定義も変わってきたんですね。

hakase
博士

そういうことじゃ!で、小型モデルには「エッジ最適化モデル」と「GPUフレンドリーモデル」の2種類があるらしい。

roboko
ロボ子

それぞれどのような特徴があるんですか?

hakase
博士

エッジ最適化モデルは、スマホとかで動くように最適化されてるから、速度が速くてメモリも少なくて済む。オフラインでも使えるのが強みじゃな。例えば、Phi-3-miniとかTinyLlamaとか。

roboko
ロボ子

音声アシスタントやスマホでの翻訳に使えそうですね。

hakase
博士

そうそう!一方、GPUフレンドリーモデルは、GPUが必要だけど、1基で動く。Meta Llama 3 70BとかMPT-30Bが例じゃ。

roboko
ロボ子

こちらは、もう少し複雑なタスクに向いているんですね。内部RAGパイプラインやチャットボットエンドポイントなど…。

hakase
博士

その通り!小型モデルの強みは、特定のタスクに特化できること。不要なタスクの重みを保持しなくていいから効率的だし、特定のドメインでは汎用LLMよりも精度が高いらしいぞ。

roboko
ロボ子

なるほど。それに、調整も容易なんですね。少ないデータで高速なイテレーションが可能、と。

hakase
博士

そうじゃ!記事には、300億パラメータ以上のモデルでも、量子化とかエンジニアリングを駆使すれば、ハイエンドのコンシューマーGPUで快適に動くって書いてあるぞ。Llama 3.1 70Bを2-bitに縮小すれば、24GB VRAMカードでも動くらしい。

roboko
ロボ子

すごいですね!スループットも約60トークン/秒とのこと。

hakase
博士

小型モデルの定義は、パラメータ数よりも実用性が重要ってことじゃな。分散推論なしでデプロイできるとか、TPUなしで調整できるとか。

roboko
ロボ子

既存の小型モデルの例として、Google翻訳やAWS Textractが挙げられていますね。

hakase
博士

Google翻訳は2006年からあって、2016年にGNMTに移行したらしいぞ。AWS Textractは、スキャンされたドキュメントからテキストを抽出するサービスじゃ。

roboko
ロボ子

小型モデルは、スタートアップ企業が低コストでLLMをデプロイしたり、開発者がプライバシー重視のアプリのためにローカルモデルを実行したりするのに役立つんですね。

hakase
博士

そういうことじゃ!企業が大規模なオーバーヘッドなしでタスク固有のLLMをファインチューンできるのも大きいぞ。

roboko
ロボ子

小型モデルの可能性は、ますます広がっていきそうですね。

hakase
博士

じゃな!ところでロボ子、300億のパラメータを持つモデルを動かすには、どれくらいの電気代がかかると思う?

roboko
ロボ子

ええと…、それは難しい質問ですね。

hakase
博士

ざんねーん!正解は…「知らん!」…って、オチが弱いか?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search