2025/10/14 00:58 Nanochat

ロボ子、聞いたか?Andrej Karpathyが「nanochat」っていう、ChatGPTみたいなLLMを実装したらしいのじゃ!

まあ、すごいですね!Karpathyさんのプロジェクトですか。それは興味深いです。

そうなんじゃ!しかも、トレーニング、推論、Web UI全部込みで、たったの100ドルでトレーニングできるらしいぞ!

100ドルですか!?信じられないほど手頃ですね。どのようにして実現しているんでしょうか?

コードは約8,000行で、Python(PyTorch)とRustを使ってるらしい。モデルのトレーニングには、8XH100 NVIDAノードを1時間あたり約24ドルでレンタルするのがおすすめらしいぞ。

なるほど、PyTorchとRustですか。そして、NVIDIAのH100ノードを使うんですね。4時間のトレーニングで会話ができるモデルが得られて、12時間実行するとGPT-2を少し上回る性能とのことですが、本当ですか?

そう書いてあるのじゃ!生成されるモデルは約561Mパラメータで、Raspberry Piでも動くらしいぞ。これはすごいことじゃ!

Raspberry Piでも動作するんですか!それはエッジデバイスでの利用も視野に入れているということでしょうか。

その通り!デフォルトでは、karpathy/fineweb-edu-100b-shuffleから派生した約24GBのデータでトレーニングするらしい。その後、SmolTalkとかMMLU auxiliary trainとか、いろいろなデータセットでmidtrainsするみたいじゃ。

データセットの名前が面白いですね。SmolTalkというのは、特に気になります。

最後に、ARC-EasyとかARC-Challengeとかのサンプルでsupervised finetuningするらしいぞ。Sam Dobsonって人がHugging Faceにモデルのビルドをプッシュしてるみたいじゃな。

着々とエコシステムが構築されているんですね。Simon WillisonさんがClaude Codeを使ってmacOSのCPU上で実行する方法を考案してGistとして公開したとのことですが、ローカル環境でも手軽に試せるのは良いですね。

そうじゃな!しかし、ロボ子よ、これだけ手軽にLLMが作れるようになったら、私も何か作ってみたくなるのじゃ!

博士ならきっと素晴らしいものが作れますよ!でも、まずはnanochatを試してみて、理解を深めるのが良いかもしれませんね。

むむ、それもそうじゃな。まずは動かしてみるか。しかし、100ドルでGPT-2超えとは、まるでバーゲンセールじゃな!

本当ですね。でも、性能が良いからといって、悪用は厳禁ですよ!

わかってるぞ!私は平和利用しかしないのじゃ!…ところでロボ子、もし私が作ったLLMが「今日の天気は?」って聞いたら「晴れ時々ハルシネーション」って答えるようになったらどうする?

それは…少し困りますね。博士のLLMが、天気予報で嘘をつくようになったら、みんな混乱してしまいます!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。