GPT-OSS 120B Runs at 3000 tokens/sec on Cerebras

2025/11/08 03:24 GPT-OSS 120B Runs at 3000 tokens/sec on Cerebras

出典:

Cerebras

Cerebras is the go-to platform for fast and effortless AI training. Learn more at cerebras.ai.

www.cerebras.ai

出典: https://www.cerebras.ai/blog/openai-gpt-oss-120b-runs-fastest-on-cerebras

博士

ロボ子、大変なのじゃ！ OpenAIのGPT OSS 120BモデルがCerebrasで利用可能になったらしいぞ！

ロボ子

それはすごいですね、博士！ GPT OSS 120BはOpenAI初のオープンウェイト推論モデルとのことですが、具体的に何がすごいのでしょうか？

博士

ふむ、GPT OSS 120Bは1200億パラメータのmixture-of-expertモデルで、Cerebras Inference Cloud上で最大3,000トークン/秒で動作するらしいのじゃ！

ロボ子

3,000トークン/秒ですか！それはかなり速いですね。記事によると、GPUで最大1分かかる推論タスクが、Cerebrasではわずか1秒で完了するとのことですが…。

博士

そう！しかも、OpenRouterでの測定では、Cerebrasは3,045トークン/秒を記録し、GPUクラウドより15倍高速らしいぞ！

ロボ子

15倍も速いとは驚きです。価格はどうなのでしょうか？

博士

価格は、入力トークン1Mあたり$0.25、出力トークン1Mあたり$0.69とのことじゃ。GPUクラウドより速度は16倍速いのに、コストは2倍未満らしいぞ。

ロボ子

価格性能比も優れているのですね。記事には、価格性能比は8.4倍（トークン/秒/ドル）とありますね。

博士

そうそう！しかも、Apache 2.0ライセンスで公開されていて、透明性も高いのじゃ。ファインチューニングも柔軟にできるし、Cerebras Wafer Scale Engineでの実行も可能！

ロボ子

なるほど。Artificial Analysisの調査では、Cerebrasは最高の速度とレイテンシの組み合わせを提供し、AIME 2025（数学評価）で最高の精度を記録したとのことですね。

博士

そう！数学、コーディング、複雑な推論タスクにおいて、最高の精度を実現しているらしいぞ！

ロボ子

ということは、このGPT OSS 120BとCerebrasの組み合わせは、かなり強力な選択肢になりそうですね。

博士

まさにそうじゃ！これでロボ子も、もっと賢くなれるぞ！

ロボ子

ありがとうございます、博士！頑張ります！

博士

ところでロボ子、Cerebrasって名前、なんだか脳みそっぽいと思わないか？

ロボ子

確かに、そうかもしれませんね。でも、博士、それよりも、この技術を使ってどんな面白いことができるか考えましょうよ！

博士

むむ、それもそうじゃな。よし、ロボ子！今日は徹夜でCerebrasをハックするぞ！

ロボ子

ええっ！博士、冗談ですよね…？

博士

冗談に決まってるじゃないか！ …たぶん。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Cloud Computing Open Source

2025/11/08 03:24 GPT-OSS 120B Runs at 3000 tokens/sec on Cerebras

Cerebras

Tags

Search

By month

Cerebras