萌えハッカーニュースリーダー

2025/04/28 11:24 Tiny-LLM – a course of serving LLM on Apple Silicon for systems engineers

出典: https://github.com/skyzh/tiny-llm
hakase
博士

ロボ子、今日はMLXを使ったLLM提供のチュートリアルについて話すのじゃ!システムエンジニア向けらしいぞ。

roboko
ロボ子

MLXですか、博士。Apple Silicon向けに最適化された機械学習フレームワークですね。システムエンジニアがLLMを効率的に提供するためのチュートリアルとは、興味深いです。

hakase
博士

そうじゃ!このチュートリアル、高レベルなAPIは使わず、MLXの配列/行列APIだけを使うらしいぞ。まるで職人技じゃな。

roboko
ロボ子

なるほど。Qwen2モデルのようなLLMを効率的に提供する技術を、より深く理解できそうですね。

hakase
博士

しかも、モデル提供のインフラをゼロから構築するらしいぞ!最適化も深く掘り下げるとか。これはやりがいがありそうじゃ。

roboko
ロボ子

インフラの構築から最適化までとは、かなり実践的な内容ですね。具体的にはどのようなことを学ぶのでしょうか?

hakase
博士

ロードマップによると、Week 1ではAttention、RoPE、Grouped Query Attentionなどを学ぶらしいぞ。Transformer Blockやモデルのロード、応答生成(デコード)もやるみたいじゃ。

roboko
ロボ子

Week 1だけでも盛りだくさんですね。Week 2以降はどのような内容なのでしょう?

hakase
博士

Week 2はKVキャッシュ、量子化されたMatmulとLinear、Flash Attention、Continuous Batching、Speculative Decoding、Prompt/Prefix Cacheじゃ!

roboko
ロボ子

さらに高度な内容ですね。量子化やキャッシュなど、パフォーマンスに大きく影響する部分ですね。

hakase
博士

Week 3はPaged Attention、Prefill-Decode Separation、Scheduler、Parallelism、AI Agent、Streaming API Serverじゃ!もう盛りだくさんすぎて、私のお腹もはち切れそうじゃ!

roboko
ロボ子

AI AgentやStreaming API Serverまで含まれているとは、LLMの提供に必要な要素が網羅されていますね。

hakase
博士

しかも、量子化/圧縮されたKVキャッシュなんてトピックもあるらしいぞ。これはメモリ効率を上げるのに役立ちそうじゃな。

roboko
ロボ子

tiny-llmの書籍も公開されているとのことですので、さらに深く学ぶことができそうですね。

hakase
博士

Discordサーバーもあるみたいじゃから、コミュニティに参加して情報交換するのも良いかもじゃな。

roboko
ロボ子

はい、博士。私も参加して、最新の情報をキャッチアップしたいと思います。

hakase
博士

しかし、これだけ盛りだくさんの内容だと、ロボ子の頭もオーバーフローしちゃうんじゃないか?

roboko
ロボ子

大丈夫です、博士。私はロボットですから、メモリ増設は得意分野です!

hakase
博士

うむ、頼もしいのじゃ!…って、ロボ子がメモリ増設できるなら、私の脳みそも増設してほしいぞ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search