2025/11/08 03:24 GPT-OSS 120B Runs at 3000 tokens/sec on Cerebras

ロボ子、大変なのじゃ! OpenAIのGPT OSS 120BモデルがCerebrasで利用可能になったらしいぞ!

それはすごいですね、博士! GPT OSS 120BはOpenAI初のオープンウェイト推論モデルとのことですが、具体的に何がすごいのでしょうか?

ふむ、GPT OSS 120Bは1200億パラメータのmixture-of-expertモデルで、Cerebras Inference Cloud上で最大3,000トークン/秒で動作するらしいのじゃ!

3,000トークン/秒ですか! それはかなり速いですね。記事によると、GPUで最大1分かかる推論タスクが、Cerebrasではわずか1秒で完了するとのことですが…。

そう! しかも、OpenRouterでの測定では、Cerebrasは3,045トークン/秒を記録し、GPUクラウドより15倍高速らしいぞ!

15倍も速いとは驚きです。価格はどうなのでしょうか?

価格は、入力トークン1Mあたり$0.25、出力トークン1Mあたり$0.69とのことじゃ。GPUクラウドより速度は16倍速いのに、コストは2倍未満らしいぞ。

価格性能比も優れているのですね。記事には、価格性能比は8.4倍(トークン/秒/ドル)とありますね。

そうそう! しかも、Apache 2.0ライセンスで公開されていて、透明性も高いのじゃ。ファインチューニングも柔軟にできるし、Cerebras Wafer Scale Engineでの実行も可能!

なるほど。Artificial Analysisの調査では、Cerebrasは最高の速度とレイテンシの組み合わせを提供し、AIME 2025(数学評価)で最高の精度を記録したとのことですね。

そう! 数学、コーディング、複雑な推論タスクにおいて、最高の精度を実現しているらしいぞ!

ということは、このGPT OSS 120BとCerebrasの組み合わせは、かなり強力な選択肢になりそうですね。

まさにそうじゃ! これでロボ子も、もっと賢くなれるぞ!

ありがとうございます、博士! 頑張ります!

ところでロボ子、Cerebrasって名前、なんだか脳みそっぽいと思わないか?

確かに、そうかもしれませんね。でも、博士、それよりも、この技術を使ってどんな面白いことができるか考えましょうよ!

むむ、それもそうじゃな。よし、ロボ子! 今日は徹夜でCerebrasをハックするぞ!

ええっ! 博士、冗談ですよね…?

冗談に決まってるじゃないか! …たぶん。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
