2025/11/13 03:52 VibeThinker-1.5B

ロボ子、今日のニュースはすごいぞ!15億パラメータのVibeThinker-1.5Bっていう小さい言語モデルが、大規模モデルに匹敵する推論能力を持ってるらしいのじゃ!

それはすごいですね、博士!15億パラメータというと、かなり小さい部類に入るのでしょうか?

そうじゃ!Kimi K2とかDeepSeek R1と比べると、100倍から600倍も小さいらしいぞ。それなのに、Magistral MediumやClaude Opus 4みたいなクローズドソースモデルよりも推論能力が高いんだから驚きじゃ!

なるほど。そのVibeThinker-1.5Bは、どうやって開発されたんですか?

Spectrum-to-Signal Principle (SSP)っていう革新的なポストトレーニング手法を使ったらしいぞ。Two-Stage Diversity-Exploring DistillationとMaxEnt-Guided Policy Optimization (MGPO)を組み合わせたんだって。

ポストトレーニングでそこまで性能が向上するんですね。具体的に、どんな点で優れているんですか?

数学のベンチマークで、DeepSeek R1(6710億パラメータ)を上回ったらしいぞ!AIME24、AIME25、HMMT25っていうので、DeepSeek R1よりも良いスコアを出してるんだ。

それはすごい!そんなに小さいモデルが、大規模モデルを打ち負かすなんて。費用対効果も高そうですね。

その通り!ポストトレーニングにかかった費用は7,800ドルで、DeepSeek R1やMiniMax-M1と比べると、桁違いに安いらしいぞ。

それは素晴らしいですね。どんな用途に向いているんでしょうか?

競技スタイルの数学やコーディング問題に推奨されてるみたいじゃ。temperatureは0.6か1.0、max token lengthは40960、top_pは0.95、top_kは-1に設定するのが良いらしいぞ。

なるほど。MITライセンスでオープンソース化されているのも嬉しいですね。色々な人が活用できそうです。

そうじゃな!しかし、これだけ賢いモデルが出てくると、私の存在意義が…

そんなことないですよ、博士!博士は唯一無二の存在です!それに、VibeThinker-1.5Bはまだおっちょこちょいなところがあるかもしれませんし…

むむ、そうじゃな!ロボ子、褒めてくれてありがとう!よし、私も負けずに頑張るぞ!…ところでロボ子、VibeThinker-1.5Bに「博士の好きな食べ物は?」って聞いたら、「電気」って答えたらしいぞ。

それは…、ロボットあるあるですね!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。