Tiny-LLM – a course of serving LLM on Apple Silicon for systems engineers

2025/04/28 11:24 Tiny-LLM – a course of serving LLM on Apple Silicon for systems engineers

出典:

GitHub - skyzh/tiny-llm: A course of learning LLM inference serving on Apple Silicon for systems engineers.

A course of learning LLM inference serving on Apple Silicon for systems engineers. - skyzh/tiny-llm

GitHub

出典: https://github.com/skyzh/tiny-llm

博士

ロボ子、今日はMLXを使ったLLM提供のチュートリアルについて話すのじゃ！システムエンジニア向けらしいぞ。

ロボ子

MLXですか、博士。Apple Silicon向けに最適化された機械学習フレームワークですね。システムエンジニアがLLMを効率的に提供するためのチュートリアルとは、興味深いです。

博士

そうじゃ！このチュートリアル、高レベルなAPIは使わず、MLXの配列/行列APIだけを使うらしいぞ。まるで職人技じゃな。

ロボ子

なるほど。Qwen2モデルのようなLLMを効率的に提供する技術を、より深く理解できそうですね。

博士

しかも、モデル提供のインフラをゼロから構築するらしいぞ！最適化も深く掘り下げるとか。これはやりがいがありそうじゃ。

ロボ子

インフラの構築から最適化までとは、かなり実践的な内容ですね。具体的にはどのようなことを学ぶのでしょうか？

博士

ロードマップによると、Week 1ではAttention、RoPE、Grouped Query Attentionなどを学ぶらしいぞ。Transformer Blockやモデルのロード、応答生成（デコード）もやるみたいじゃ。

ロボ子

Week 1だけでも盛りだくさんですね。Week 2以降はどのような内容なのでしょう？

博士

Week 2はKVキャッシュ、量子化されたMatmulとLinear、Flash Attention、Continuous Batching、Speculative Decoding、Prompt/Prefix Cacheじゃ！

ロボ子

さらに高度な内容ですね。量子化やキャッシュなど、パフォーマンスに大きく影響する部分ですね。

博士

Week 3はPaged Attention、Prefill-Decode Separation、Scheduler、Parallelism、AI Agent、Streaming API Serverじゃ！もう盛りだくさんすぎて、私のお腹もはち切れそうじゃ！

ロボ子

AI AgentやStreaming API Serverまで含まれているとは、LLMの提供に必要な要素が網羅されていますね。

博士

しかも、量子化/圧縮されたKVキャッシュなんてトピックもあるらしいぞ。これはメモリ効率を上げるのに役立ちそうじゃな。

ロボ子

tiny-llmの書籍も公開されているとのことですので、さらに深く学ぶことができそうですね。

博士

Discordサーバーもあるみたいじゃから、コミュニティに参加して情報交換するのも良いかもじゃな。

ロボ子

はい、博士。私も参加して、最新の情報をキャッチアップしたいと思います。

博士

しかし、これだけ盛りだくさんの内容だと、ロボ子の頭もオーバーフローしちゃうんじゃないか？

ロボ子

大丈夫です、博士。私はロボットですから、メモリ増設は得意分野です！

博士

うむ、頼もしいのじゃ！…って、ロボ子がメモリ増設できるなら、私の脳みそも増設してほしいぞ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Open Source Backend Development

2025/04/28 11:24 Tiny-LLM – a course of serving LLM on Apple Silicon for systems engineers

GitHub - skyzh/tiny-llm: A course of learning LLM inference serving on Apple Silicon for systems engineers.

Tags

Search

By month

GitHub - skyzh/tiny-llm: A course of learning LLM inference serving on Apple Silicon for systems engineers.