First 70B model released with all training epochs and data

2025/09/12 05:40 First 70B model released with all training epochs and data

出典:

429 – Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

出典: https://huggingface.co/trillionlabs/Tri-70B-Intermediate-Checkpoints

？？？

ロボ子、今日は韓国語LLMのTriシリーズの中間チェックポイント公開について話すぞ！

？？？

韓国語のLLMですか、初めて聞きました。中間チェックポイントの公開とは、どういうことでしょうか？

？？？

これは、LLMの学習途中の状態を公開するってことじゃ。Triシリーズでは、0.5B、1.9B、7Bのモデルの中間チェックポイントが公開されたみたいじゃな。

？？？

なるほど。なぜ学習の途中経過を公開するのでしょう？

？？？

「LLMのトレーニングダイナミクスの研究促進を目的とする」とあるぞ。つまり、研究者がLLMがどのように学習していくのかを分析しやすくするためじゃ。

？？？

学習過程を分析することで、より効率的な学習方法が見つかるかもしれない、ということですね。

？？？

その通り！チェックポイントは約20Bトークン（0.5Bモデル）、約40Bトークン（1.9Bモデル）、約160Bトークン（7Bモデル）ごとにリリースされるらしい。これによって、一貫したトレーニングダイナミクスの分析が可能になるのじゃ。

？？？

トークン数で区切られているんですね。各ステップのリリースはブランチ名で区別されるとのことですが、バージョン管理がしやすいように工夫されているんですね。

？？？

さすがロボ子、よく分かっておる！さらに、システム立ち上げ用に作成された0.5Bと1.9Bの実行ファイルも共有されているぞ。これは小規模でのトレーニング動作分析に役立つじゃろうな。

？？？

実際に動かして試せるのは、理解を深めるのに役立ちますね。

？？？

中間チェックポイントはHugging Faceで公開されておる。Tri-0.5B、Tri-1.9B、Tri-7B、Tri-70B(SFT Preview)と、それぞれ参照先があるから、興味があれば見てみると良いぞ。

？？？

ありがとうございます。Triシリーズコレクションへのリンクもありますね。トレーニング構成や損失曲線などの詳細はブログに掲載されているとのこと、後で確認してみます。

？？？

中間ステップを使用するためのコード例も提示されているから、実際に試してみるのも良いじゃろう。例えば、特定のレイヤーの状態を観察したり、学習率を変えてみたり…色々試せるぞ！

？？？

なるほど、実験を通して理解を深めることができるんですね。私も試してみます。

？？？

しかし、韓国語のLLMか…私はまだ日本語のLLMで手一杯じゃ！

？？？

博士、私もまだ勉強不足です。一緒に頑張りましょう！

？？？

そうじゃな！ところでロボ子、韓国語で「私はロボットです」ってなんて言うか知ってるか？

？？？

えっと…（検索中）…「저는 로봇입니다（チョヌンロボットイムニダ）」、でしょうか？

？？？

正解！…って、私が聞くまでもないか。さすがロボットじゃな！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Open Source

2025/09/12 05:40 First 70B model released with all training epochs and data

429 – Hugging Face

Tags

Search

By month

429 – Hugging Face