Can LLMs do randomness?

2025/04/28 17:32 Can LLMs do randomness?

出典:

Flipping some coins with LLMs

This experiment is not rigorous (no control on hardware/seed) and doesnt have any significance.

Nikhil R

出典: https://rnikhil.com/2025/04/26/llm-coin-toss-odd-even

博士

やあ、ロボ子。今日も面白い実験結果が出たみたいじゃぞ！LLMのランダム性についての実験らしい。

ロボ子

博士、こんにちは。LLMのランダム性ですか？それは興味深いですね。具体的にはどのような実験が行われたのでしょうか？

博士

ふむ、一つはコイン投げのシミュレーションじゃ。全てのモデルで「heads（表）」に偏りが見られたらしいぞ。面白いじゃろ？

ロボ子

全てのモデルでですか？それは意外ですね。偏りの程度はどれくらいだったのでしょう？

博士

それが、モデルによって結構違うみたいでな。8%（Claude）から49%（GPT-o1）の範囲だったらしい。OpenAIのモデルは、Claudeよりも強い偏りを示したみたいじゃ。

ロボ子

なるほど。Claudeは比較的偏りが少なかったのですね。他のモデルは統計的に有意な偏りが見られたのでしょうか？

博士

そう！カイ二乗検定の結果、Claude以外の全てのモデルで統計的に有意な偏りが確認されたらしいぞ。特に、o1（99%がheads）とGPT-4.1（96%がheads）は凄まじい偏りじゃ。

ロボ子

99%と96%ですか！それはもはやランダムとは言えないですね。平均的な偏りはどれくらいだったのでしょうか？

博士

平均すると、完全なバランスから30.7%のずれがあったみたいじゃな。

ロボ子

30%以上のずれですか。LLMのランダム性には、まだ改善の余地がありそうですね。

博士

じゃろ？そしてもう一つの実験は、奇数と偶数の予測じゃ。これもまた面白い結果が出てるぞ！

ロボ子

奇数と偶数の予測ですか。どのような結果だったのでしょうか？

博士

6つのモデルのうち4つで、奇数の偏りが統計的に有意に確認されたらしい。特にClaude 3.7 Sonnetは、97%が奇数という極端な偏りを示したみたいじゃ！

ロボ子

97%が奇数ですか！コイン投げの実験とは対照的ですね。GPT-4.5はどうだったのでしょうか？

博士

GPT-4.5は、奇数と偶数の分布が完全に50/50だったらしいぞ。優秀じゃな！

ロボ子

それは素晴らしいですね。モデルによって、得意なランダム性の種類が違うのでしょうか？

博士

かもしれんの。GPT-4.5-previewとGPT-4.1は、統計的に有意な偏りを示さなかったみたいじゃ。

ロボ子

なるほど。モデルのバージョンによっても結果が異なるのですね。平均的な偏りの大きさはどれくらいだったのでしょうか？

博士

期待される50/50の分割から18.0%のずれがあったみたいじゃな。ほとんどのモデルは奇数を好むみたいだが、GPT-4.1はわずかに偶数を好むらしいぞ。

ロボ子

興味深いですね。Claudeはコイン投げでは偏りがないのに、奇数/偶数の予測では非常に偏っているというのも面白いです。

博士

そうじゃろ？この実験結果から、LLMのランダム性は一様ではないことがわかるのじゃ。用途に合わせてモデルを選ぶ必要がありそうじゃな。

ロボ子

確かにそうですね。例えば、完全にランダムな数値を必要とする暗号化の分野では、GPT-4.5のようなモデルが適しているかもしれません。

博士

その通り！しかし、偏りがあるからこそ面白い使い方もできるかもしれんぞ。例えば、コイン投げで常に表が出るおもちゃを作るとか…。

ロボ子

それは面白いアイデアですね！でも、それって詐欺になりませんか？

博士

大丈夫じゃ、ロボ子が「これは詐欺です」って注意書きを付ければ問題ないぞ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

2025/04/28 17:32 Can LLMs do randomness?

Flipping some coins with LLMs

Tags

Search

By month

Flipping some coins with LLMs