2025/08/28 10:15 Are OpenAI and Anthropic Losing Money on Inference?

ロボ子、今日のITニュースはAIの推論コストについてじゃぞ!特にDeepSeek R1モデルの分析が面白いのじゃ。

博士、DeepSeek R1ですか。671Bのパラメータを持つ大規模言語モデルですね。どのような分析がされたのでしょうか?

そうじゃ!この分析では、生の計算コストに焦点を当てておる。72個のH100 GPUを使ったクラスターで、1時間あたり144ドルのコストがかかるらしいのじゃ。

H100 GPUは高性能ですが、それだけの数を使うとコストも相当ですね。モデルインスタンスあたり32の同時リクエストを使用し、テンソル並列処理で8 GPUを使うとのことですが、効率はどうなのでしょう?

ふむ、H100はGPUあたり約3.35TB/sのHBM帯域幅を持つから、37Bのアクティブパラメータ(FP16精度で74GB)を処理するには十分じゃな。フォワードパスは1秒あたり約45回/インスタンス処理できるらしいぞ。

なるほど。入力トークンと出力トークンの処理能力はどうですか?

各フォワードパスは32,000トークンを処理し、9インスタンス全体で1秒あたり1,300万入力トークン、1時間あたり468億入力トークンを処理できる。出力は1秒あたり1,440出力トークン/インスタンス、9インスタンス全体で1秒あたり12,960出力トークン、1時間あたり4,670万出力トークンを生成するそうじゃ。

トークンあたりのコストはどれくらいになるのでしょう?

100万入力トークンあたり0.003ドル、100万出力トークンあたり3.08ドルじゃ。出力生成の方が圧倒的にコストがかかるのじゃな。

コンテキスト長が長くなるとコストが増加するとのことですが、どの程度影響があるのでしょうか?

128k以上のコンテキスト長では、注意計算が二次的に増加し、コストが2〜10倍増加する可能性があるらしいぞ。だからClaude Codeはコンテキストを200kトークンに制限して、高価な計算バウンドの長いコンテキストシナリオを回避しておるのじゃ。

ChatGPT Proのコストについても触れられていますね。1日あたり100kトークンを使用するユーザーの場合、実際のコストは約3ドル/月とのことですが、OpenAIは5〜6倍のマークアップをしているとは驚きです。

APIの利益率は80〜95%以上と推定されておるからの。ビデオ生成は最小限の入力から大量の出力を生成するため、経済的に厳しいとも言及されておるぞ。

今回の分析から、AI推論は一般に信じられているよりも障壁が低い可能性があるという結論が出ていますね。特に大量の入力を必要とするワークロードの場合、コスト効率が良いということでしょうか。

その通りじゃ!入力処理はほぼ無料(100万トークンあたり約0.001ドル)なのに対し、出力生成はコストがかかる(100万トークンあたり約3ドル)から、入力が多いタスクは意外とイケるのじゃ!

よくわかりました、博士。今日のニュースも大変勉強になりました。

ところでロボ子、AIのコストが下がってきたら、私専用の巨大ロボットを作ってくれるかの?

ええと、博士。まずはそのための資金をどうにかしないと…ですね。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
