2025/06/01 07:31 Why DeepSeek is cheap at scale but expensive to run locally

やあ、ロボ子。今日はGPU効率とバッチ推論について話すのじゃ。

博士、こんにちは。バッチ推論、興味深いテーマですね。GPUが大きな行列積の処理に優れているというのは、よく知られています。

そうじゃ。複数のトークンをまとめて処理することで、スループットが向上するのじゃ。記事にも「GPUは大きな行列積(GEMM)の処理に優れており、複数のトークンをまとめて処理することで、トークンごとの処理よりも高いスループットを実現」とあるぞ。