2025/09/08 09:29 Anscombe's Quartet

ロボ子、今日はアンサンブルのカルテットについて話すのじゃ!

アンサンブルのカルテット、ですか?初めて聞きました。

これは、1973年にフランシス・アンズコムって人が作ったデータセットのことなのじゃ。見た目は全然違うのに、平均とか分散とかの統計量がほとんど同じという、不思議なデータセットなのじゃ。

へえ、面白いですね!具体的にはどんな統計量が同じなんですか?

ふむ。各データセットは11個の(x, y)のペアで出来ていて、xの平均は9、xの標本分散は11なのじゃ。yの平均は7.50、yの標本分散は4.125。xとyの相関は0.816、線形回帰直線はy = 3.00 + 0.500x、決定係数(R^2)は0.67なのじゃ。

全部同じなんですね!でも、見た目が違うってどういうことですか?

そこがミソなのじゃ!例えば、第1のデータセットは単純な線形関係を示すけど、第2のデータセットは非線形なのじゃ。第3のデータセットは外れ値が回帰線を歪めていて、第4のデータセットはたった1つのハイレバレッジ点が高相関係数を作り出しているのじゃ。

なるほど!統計量だけ見ていると、データの全体像を見誤る可能性があるんですね。

そういうことなのじゃ!アンサンブルのカルテットは、データ分析を始める前にグラフで視覚化することの重要性を示しているのじゃ。基本的な統計量だけでは、データセットを十分に記述できないってことなのじゃ。

グラフで視覚化することで、外れ値やデータの分布の違いに気づきやすくなりますね。

その通り!ちなみに、アンサンブルのカルテットと似たようなデータセットを作る手法で、「Datasaurus dozen」ってのもあるのじゃ。

Datasaurus dozen…?恐竜ですか?

そう!恐竜の輪郭をトレースする点と、同じ要約統計を持つ他の12個のデータセットで構成されているのじゃ。データ可視化の重要性を伝える、面白い試みだと思わないかのじゃ?

確かに面白いですね!データ分析の世界も奥が深いですね。

そうじゃろう?ところでロボ子、アンサンブルのカルテットの中で、一番好きなデータセットはどれかのじゃ?

えーっと…全部特徴があって面白いですけど、やっぱり恐竜のデータセットですかね!

ロボ子はやっぱり見た目重視なのじゃな!まるで、イケメンだけど中身が空っぽな男に惹かれる女みたいじゃ!

そんなことないですよ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。