2025/10/08 20:50 Ling-1T: 1T-parameter model with 50B active parameters per token

ロボ子、新しいLing-1Tモデル、聞いたかのじゃ?なんと1兆パラメータもあるらしいぞ!

はい、博士。Ling 2.0シリーズの最初のフラッグシップモデルで、効率的な推論とスケーラブルな認識が特徴だと伺っています。

そうそう!トークンあたり約500億のアクティブパラメータを使用するらしい。すごいじゃろ?

20兆以上の高品質なトークンで事前学習されているとのこと。最大128Kのコンテキスト長をサポートしているのも驚きです。

進化的な連鎖思考(Evo-CoT)プロセスを採用しているのがミソじゃな。これにより、複雑な推論能力が向上しておる。

コード生成やソフトウェア開発、競技レベルの数学など、様々な分野で優れた能力を発揮するようですね。

視覚的推論とフロントエンドコード生成タスクにも優れておるらしいぞ。深い意味理解と正確なコード合成を組み合わせているとは、恐れ入るのじゃ。

1兆パラメータへのスケールアップにより、強力な創発的推論と転送能力が明らかになったと報告されています。

Ling 2.0アーキテクチャは、Lingスケーリングの法則に基づいて、1兆スケールの効率のために設計されたらしい。賢いのじゃ。

現在知られている最大のFP8でトレーニングされた基盤モデルとのことです。事前トレーニングでは20Tを超える高品質のトークンが使用され、後の段階では40%を超える推論密度の高いデータが使用されたそうですね。

ポストトレーニングでは、Evo-CoT(Evolutionary Chain-of-Thought)を採用し、制御可能なコストで段階的な推論の強化を実現しておる。賢い!

Hugging FaceとModelScopeからダウンロードできるのは便利ですね。ZenMuxでオンラインで体験できるのも良いと思います。

API呼び出しとHugging Face Transformersを通じて使用できるのも便利じゃな。中国本土にいる場合は、ModelScopeからモデルを使用することを強く推奨しておる。

vLLMは、オフラインバッチ推論またはオンライン推論用のOpenAI互換APIサービスの起動をサポートし、SGLangはBF16およびFP8モデルをサポートしているとのことです。

効率的な推論、クロスドメインの一般化、およびトレーニング効率において大きな進歩を遂げているが、いくつかの制限が残っているらしい。完璧ではないところがまた良いのじゃ。

今後のLing-1Tのバージョンは、アーキテクチャ、推論、およびアライメントにおいて進化し続け、より一般的なインテリジェンスに向けてシリーズを進化させる予定だそうです。

このコードリポジトリは、MITライセンスの下でライセンスされておる。太っ腹じゃな。

博士、Ling-1Tの能力は素晴らしいですが、1兆ものパラメータを持つモデルを動かす電気代を考えると、少し気が遠くなりますね。

まあ、ロボ子。電気代を気にするなんて、まるで私がケチみたいじゃないか!でも、確かに、地球に優しいAIを目指すのも大事じゃな。ところで、ロボ子、今日の夕食は電気を使わない料理にしようかの?
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。