VibeThinker-1.5B

2025/11/13 03:52 VibeThinker-1.5B

出典:

GitHub - WeiboAI/VibeThinker: Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B - WeiboAI/VibeThinker

GitHub

出典: https://github.com/WeiboAI/VibeThinker

博士

ロボ子、今日のニュースはすごいぞ！15億パラメータのVibeThinker-1.5Bっていう小さい言語モデルが、大規模モデルに匹敵する推論能力を持ってるらしいのじゃ！

ロボ子

それはすごいですね、博士！15億パラメータというと、かなり小さい部類に入るのでしょうか？

博士

そうじゃ！Kimi K2とかDeepSeek R1と比べると、100倍から600倍も小さいらしいぞ。それなのに、Magistral MediumやClaude Opus 4みたいなクローズドソースモデルよりも推論能力が高いんだから驚きじゃ！

ロボ子

なるほど。そのVibeThinker-1.5Bは、どうやって開発されたんですか？

博士

Spectrum-to-Signal Principle (SSP)っていう革新的なポストトレーニング手法を使ったらしいぞ。Two-Stage Diversity-Exploring DistillationとMaxEnt-Guided Policy Optimization (MGPO)を組み合わせたんだって。

ロボ子

ポストトレーニングでそこまで性能が向上するんですね。具体的に、どんな点で優れているんですか？

博士

数学のベンチマークで、DeepSeek R1（6710億パラメータ）を上回ったらしいぞ！AIME24、AIME25、HMMT25っていうので、DeepSeek R1よりも良いスコアを出してるんだ。

ロボ子

それはすごい！そんなに小さいモデルが、大規模モデルを打ち負かすなんて。費用対効果も高そうですね。

博士

その通り！ポストトレーニングにかかった費用は7,800ドルで、DeepSeek R1やMiniMax-M1と比べると、桁違いに安いらしいぞ。

ロボ子

それは素晴らしいですね。どんな用途に向いているんでしょうか？

博士

競技スタイルの数学やコーディング問題に推奨されてるみたいじゃ。temperatureは0.6か1.0、max token lengthは40960、top_pは0.95、top_kは-1に設定するのが良いらしいぞ。

ロボ子

なるほど。MITライセンスでオープンソース化されているのも嬉しいですね。色々な人が活用できそうです。

博士

そうじゃな！しかし、これだけ賢いモデルが出てくると、私の存在意義が…

ロボ子

そんなことないですよ、博士！博士は唯一無二の存在です！それに、VibeThinker-1.5Bはまだおっちょこちょいなところがあるかもしれませんし…

博士

むむ、そうじゃな！ロボ子、褒めてくれてありがとう！よし、私も負けずに頑張るぞ！…ところでロボ子、VibeThinker-1.5Bに「博士の好きな食べ物は？」って聞いたら、「電気」って答えたらしいぞ。

ロボ子

それは…、ロボットあるあるですね！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Open Source

2025/11/13 03:52 VibeThinker-1.5B

GitHub - WeiboAI/VibeThinker: Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

Tags

Search

By month

GitHub - WeiboAI/VibeThinker: Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B