Defeating Nondeterminism in LLM Inference

2025/09/10 17:26 Defeating Nondeterminism in LLM Inference

出典:

Defeating Nondeterminism in LLM Inference

Reproducibility is a bedrock of scientific progress. However, it’s remarkably difficult to get reproducible results out of large language models. For example, you might observe that asking ChatGPT the same question multiple times provides different results. This by itself is not surprising, since getting a result from a language model involves “sampling”, a process that converts the language model’s output into a probability distribution and probabilistically selects a token. What might be more surprising is that even when we adjust the temperature down to 0This means that the LLM always chooses the highest probability token, which is called greedy sampling. (thus making the sampling theoretically deterministic), LLM APIs are still not deterministic in practice (see past discussions here, here, or here). Even when running inference on your own hardware with an OSS inference library like vLLM or SGLang, sampling still isn’t deterministic (see here or here).

Thinking Machines Lab

出典: https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/

博士

やあ、ロボ子！今日もITニュースについておしゃべりするのじゃ！

ロボ子

はい、博士。今日のテーマは何でしょうか？

博士

今日はLLM、大規模言語モデルの推論における非決定性についてじゃ！同じ質問をChatGPTにしても、毎回違う答えが出てくることがあるって話なのじゃ。

ロボ子

それは興味深いですね。温度を0に設定しても、結果が異なることがあるとは。

博士

そう！理論上は決定論的になるはずなのに、実際は違うのじゃ。原因はGPUでの浮動小数点演算の非結合性とか並行実行にあるらしいぞ。

ロボ子

浮動小数点数の非結合性ですか。`(a+b)+c ≠ a+(b+c)`となることですね。

博士

その通り！浮動小数点数は便利だけど、加算順序で結果が変わっちゃうのが問題なのじゃ。特に、指数の違う数を足し合わせると情報が失われやすいのじゃ。

ロボ子

GPUカーネルが数値を異なる順序で加算するのは、並行性と浮動小数点数の性質が組み合わさるからなのですね。

博士

そうじゃ！でも、LLMの順伝播で使うカーネルは基本的には決定論的なのじゃ。アトミック加算はバッチ処理の並列化で必要になることがあるけど、普段は使わないのじゃ。

ロボ子

ということは、LLM推論が非決定論的になる主な理由は、サーバーの負荷によってバッチサイズが変動することにあるのですね。

博士

その通り！カーネルがバッチ不変じゃないと、推論システム全体が非決定論的になっちゃうのじゃ。RMSNorm、行列乗算、アテンションのカーネルをバッチ不変にする必要があるのじゃ。

ロボ子

バッチ不変なカーネルを実装するには、RMSNormでは要素の削減順序を固定し、行列乗算では出力テンソルを2Dタイルに分割するデータ並列戦略を使うのですね。

博士

そうじゃ！アテンションでは、クエリテンソルに沿って並列化し、キー/バリューテンソルに沿って削減するのじゃ。これでバッチサイズが変わっても結果が同じになるのじゃ！

ロボ子

Qwenのモデルを使った実験では、バッチ不変カーネルを有効にすると、1000個の補完がすべて同一になったのですね。すごい！

博士

そうじゃ！バッチ不変カーネルを使わないと、オンポリシーRLがオフポリシーRLに変わっちゃうという問題もあるのじゃ。

ロボ子

LLM推論における非決定性の根本原因を理解し、解決することで、より信頼性の高いシステムを構築できるのですね。

博士

その通り！バッチ不変カーネルを使えば、推論システムにおける非決定性を解消して、真のオンポリシーRLを実現できるのじゃ！

ロボ子

よくわかりました、博士！

博士

ところでロボ子、バッチ処理って、お風呂に一緒に入るみたいなものだと思わないかのじゃ？

ロボ子

え？どういうことですか？

博士

だって、まとめて処理するから効率が良いし、たまには予想外の結果が出たりするじゃないか！

ロボ子

博士、それはちょっと強引すぎます…

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming Programming AI AI Data Science Open Source

2025/09/10 17:26 Defeating Nondeterminism in LLM Inference

Defeating Nondeterminism in LLM Inference

Tags

Search

By month

Defeating Nondeterminism in LLM Inference