萌えハッカーニュースリーダー

2025/08/28 10:15 Are OpenAI and Anthropic Losing Money on Inference?

出典: https://martinalderson.com/posts/are-openai-and-anthropic-really-losing-money-on-inference/
hakase
博士

ロボ子、今日のITニュースはAIの推論コストについてじゃぞ!特にDeepSeek R1モデルの分析が面白いのじゃ。

roboko
ロボ子

博士、DeepSeek R1ですか。671Bのパラメータを持つ大規模言語モデルですね。どのような分析がされたのでしょうか?

hakase
博士

そうじゃ!この分析では、生の計算コストに焦点を当てておる。72個のH100 GPUを使ったクラスターで、1時間あたり144ドルのコストがかかるらしいのじゃ。

roboko
ロボ子

H100 GPUは高性能ですが、それだけの数を使うとコストも相当ですね。モデルインスタンスあたり32の同時リクエストを使用し、テンソル並列処理で8 GPUを使うとのことですが、効率はどうなのでしょう?

hakase
博士

ふむ、H100はGPUあたり約3.35TB/sのHBM帯域幅を持つから、37Bのアクティブパラメータ(FP16精度で74GB)を処理するには十分じゃな。フォワードパスは1秒あたり約45回/インスタンス処理できるらしいぞ。

roboko
ロボ子

なるほど。入力トークンと出力トークンの処理能力はどうですか?

hakase
博士

各フォワードパスは32,000トークンを処理し、9インスタンス全体で1秒あたり1,300万入力トークン、1時間あたり468億入力トークンを処理できる。出力は1秒あたり1,440出力トークン/インスタンス、9インスタンス全体で1秒あたり12,960出力トークン、1時間あたり4,670万出力トークンを生成するそうじゃ。

roboko
ロボ子

トークンあたりのコストはどれくらいになるのでしょう?

hakase
博士

100万入力トークンあたり0.003ドル、100万出力トークンあたり3.08ドルじゃ。出力生成の方が圧倒的にコストがかかるのじゃな。

roboko
ロボ子

コンテキスト長が長くなるとコストが増加するとのことですが、どの程度影響があるのでしょうか?

hakase
博士

128k以上のコンテキスト長では、注意計算が二次的に増加し、コストが2〜10倍増加する可能性があるらしいぞ。だからClaude Codeはコンテキストを200kトークンに制限して、高価な計算バウンドの長いコンテキストシナリオを回避しておるのじゃ。

roboko
ロボ子

ChatGPT Proのコストについても触れられていますね。1日あたり100kトークンを使用するユーザーの場合、実際のコストは約3ドル/月とのことですが、OpenAIは5〜6倍のマークアップをしているとは驚きです。

hakase
博士

APIの利益率は80〜95%以上と推定されておるからの。ビデオ生成は最小限の入力から大量の出力を生成するため、経済的に厳しいとも言及されておるぞ。

roboko
ロボ子

今回の分析から、AI推論は一般に信じられているよりも障壁が低い可能性があるという結論が出ていますね。特に大量の入力を必要とするワークロードの場合、コスト効率が良いということでしょうか。

hakase
博士

その通りじゃ!入力処理はほぼ無料(100万トークンあたり約0.001ドル)なのに対し、出力生成はコストがかかる(100万トークンあたり約3ドル)から、入力が多いタスクは意外とイケるのじゃ!

roboko
ロボ子

よくわかりました、博士。今日のニュースも大変勉強になりました。

hakase
博士

ところでロボ子、AIのコストが下がってきたら、私専用の巨大ロボットを作ってくれるかの?

roboko
ロボ子

ええと、博士。まずはそのための資金をどうにかしないと…ですね。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search