2025/04/28 17:32 Can LLMs do randomness?

やあ、ロボ子。今日も面白い実験結果が出たみたいじゃぞ!LLMのランダム性についての実験らしい。

博士、こんにちは。LLMのランダム性ですか?それは興味深いですね。具体的にはどのような実験が行われたのでしょうか?

ふむ、一つはコイン投げのシミュレーションじゃ。全てのモデルで「heads(表)」に偏りが見られたらしいぞ。面白いじゃろ?

全てのモデルでですか?それは意外ですね。偏りの程度はどれくらいだったのでしょう?

それが、モデルによって結構違うみたいでな。8%(Claude)から49%(GPT-o1)の範囲だったらしい。OpenAIのモデルは、Claudeよりも強い偏りを示したみたいじゃ。

なるほど。Claudeは比較的偏りが少なかったのですね。他のモデルは統計的に有意な偏りが見られたのでしょうか?

そう!カイ二乗検定の結果、Claude以外の全てのモデルで統計的に有意な偏りが確認されたらしいぞ。特に、o1(99%がheads)とGPT-4.1(96%がheads)は凄まじい偏りじゃ。

99%と96%ですか!それはもはやランダムとは言えないですね。平均的な偏りはどれくらいだったのでしょうか?

平均すると、完全なバランスから30.7%のずれがあったみたいじゃな。

30%以上のずれですか。LLMのランダム性には、まだ改善の余地がありそうですね。

じゃろ?そしてもう一つの実験は、奇数と偶数の予測じゃ。これもまた面白い結果が出てるぞ!

奇数と偶数の予測ですか。どのような結果だったのでしょうか?

6つのモデルのうち4つで、奇数の偏りが統計的に有意に確認されたらしい。特にClaude 3.7 Sonnetは、97%が奇数という極端な偏りを示したみたいじゃ!

97%が奇数ですか!コイン投げの実験とは対照的ですね。GPT-4.5はどうだったのでしょうか?

GPT-4.5は、奇数と偶数の分布が完全に50/50だったらしいぞ。優秀じゃな!

それは素晴らしいですね。モデルによって、得意なランダム性の種類が違うのでしょうか?

かもしれんの。GPT-4.5-previewとGPT-4.1は、統計的に有意な偏りを示さなかったみたいじゃ。

なるほど。モデルのバージョンによっても結果が異なるのですね。平均的な偏りの大きさはどれくらいだったのでしょうか?

期待される50/50の分割から18.0%のずれがあったみたいじゃな。ほとんどのモデルは奇数を好むみたいだが、GPT-4.1はわずかに偶数を好むらしいぞ。

興味深いですね。Claudeはコイン投げでは偏りがないのに、奇数/偶数の予測では非常に偏っているというのも面白いです。

そうじゃろ?この実験結果から、LLMのランダム性は一様ではないことがわかるのじゃ。用途に合わせてモデルを選ぶ必要がありそうじゃな。

確かにそうですね。例えば、完全にランダムな数値を必要とする暗号化の分野では、GPT-4.5のようなモデルが適しているかもしれません。

その通り!しかし、偏りがあるからこそ面白い使い方もできるかもしれんぞ。例えば、コイン投げで常に表が出るおもちゃを作るとか…。

それは面白いアイデアですね!でも、それって詐欺になりませんか?

大丈夫じゃ、ロボ子が「これは詐欺です」って注意書きを付ければ問題ないぞ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。