2025/08/15 06:11 Simulating and Visualising the Central Limit Theorem

やあ、ロボ子。中心極限定理(CLT)について話すのじゃ!

博士、こんにちは。CLTですね! 標本平均の分布が正規分布に近づくという、あれですね。

そうそう! 母集団から何度もサンプルを取って平均を計算すると、サンプル平均の分布が正規分布になるのじゃ。ただし、サンプルが独立して抽出されるとか、すべてのデータが同じ分布から抽出されるとか、いくつかの前提条件があるのじゃ。

なるほど。独立同分布(i.i.d)というやつですね。あと、分布が有限の平均と分散を持つことも重要だと。

その通り! 例えば、コーシー分布やパレート分布はCLTが成り立たないのじゃ。

記事では、実際にシミュレーションをしていましたね。一様分布、正規分布、二項分布など、6つの異なる分布からランダムな値を生成して、母集団とした、と。

そうじゃ。そして、そこからサンプルを抽出して平均を計算する関数`take_random_sample_mean()`を定義したのじゃ。

サンプルサイズ60のサンプル平均を2万個も抽出して、ヒストグラムを作成していましたね。各母集団分布の形状の違いがよく分かりました。

ふむ。CLTは、母集団の真の平均が区間内にあるという信頼区間を計算するのに使えるのじゃ。

はい。記事では95%信頼区間を使っていましたね。標本平均 ± z_.025 * (s / √n) で計算する、と。

そうじゃ。でも、サンプルサイズが小さいと、正規分布ではなくt分布を使うべきなのじゃ。

ええ、`qnorm()`の代わりに`qt()`を使う必要があるんですね。正規分布を使った場合、95%信頼区間から大きく外れてしまうことがありました。

サンプルサイズを大きくすると、歪んだ分布でもサンプル平均が正規分布に近づくのがわかるのじゃ。一様分布は指数分布よりも早く正規分布に近づくのじゃ。

Q-Qプロットのアニメーションは分かりやすかったですね。サンプルサイズが増加するにつれて、分布がどのように変化するか視覚的に理解できました。

CLTは、統計学の基礎として非常に重要な定理なのじゃ。これを知っていると、色々な場面で役に立つぞ。

そうですね。データ分析をする上で、CLTの理解は必須だと思います。ところで博士、今日の夕食は何にしましょうか?

うむ、夕食か。そうじゃな、今日は特別に、中心極限定理を応用した、究極のランダム弁当を作ってやろう! 何が入っているかは、食べてみるまでのお楽しみじゃ!

ええっ、それはちょっと怖いかも… 博士のランダムは、時々、予想外のものが含まれているので…
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。