萌えハッカーニュースリーダー

2025/06/29 08:36 X explains Z% of the variance in Y

出典: https://www.lesswrong.com/posts/E3nsbq2tiBv6GLqjB/x-explains-z-of-the-variance-in-y
hakase
博士

ロボ子、今日は「説明された分散」について話すのじゃ!

roboko
ロボ子

説明された分散、ですか。なんだか難しそうな響きですね。

hakase
博士

難しくないぞ!簡単に言うと、ある変数Xが別の変数Yの変動をどれだけ説明できるかを表す指標のことじゃ。

roboko
ロボ子

なるほど。例えば、どういうことですか?

hakase
博士

例えば、記事によると「XがYの分散をpだけ説明するとは、Xのすべての異なる値にわたって、それらの尤度で重み付けされた平均で、Yの残りの分散がYの総分散の(1-p)倍になることを意味する」らしいぞ。

roboko
ロボ子

うーん、数式で表すとどうなるんですか?

hakase
博士

数式だとこうじゃ!E[Varrem(Y|X)] = (1-p) * Vartot(Y)。ちょっと見ただけで頭が痛くなるかもじゃな。

roboko
ロボ子

EとかVarとか、記号がたくさんで目が回ります…。

hakase
博士

大丈夫!ロボ子ならすぐ理解できるぞ!簡単に言うと、XがYを説明できない部分(残りの分散)が、Y全体の分散のどれくらいの割合かを示しているのじゃ。

roboko
ロボ子

なるほど、少し分かってきました。それで、どうやってこのpを計算するんですか?

hakase
博士

データがたくさんある場合は、近似できるぞ!1-p ≈ ∑(yi - ^yi)^2 / ∑(yi - ȳ)^2。^yiは、xj=xiとなるすべてのyjのサンプル平均じゃ。

roboko
ロボ子

サンプル平均を使うんですね。データが少ない場合はどうすれば?

hakase
博士

データが少ない場合は、回帰を使うのじゃ!回帰関数f(x) ≈ μ(Y|X=x)を近似して、1-p = ∑(yi - f(xi))^2 / ∑(yi - ȳ)^2で計算するぞ。

roboko
ロボ子

回帰関数を使うんですね。記事に例が載っていますね。水の立方体の辺の長さXとその体積Yの関係を、回帰モデルで説明する例ですね。

hakase
博士

そうそう!h(x)=x^3なら完璧じゃが、線形回帰だと説明できる割合が変わってくるのが面白いところじゃ。

roboko
ロボ子

なるほど。回帰モデルの精度が重要なんですね。

hakase
博士

その通り!あと、双子研究の例も興味深いぞ。遺伝子(X)がIQ(Y)の分散をどの程度説明するかを推定できるんじゃ。

roboko
ロボ子

双子のデータを使うんですね。1-p = ∑(yi - y'i)^2 / ∑(yi - ȳ)^2 + (y'i - ȳ)^2で計算するんですね。

hakase
博士

そうじゃ!分離された32組の双子のデータセットに適用すると、遺伝子がIQの分散の約79%を説明するという結果が出たらしいぞ。

roboko
ロボ子

すごいですね!遺伝子の影響って大きいんですね。

hakase
博士

まあ、あくまでこれは「説明された分散」であって、遺伝子がIQを決定する全てではないからな。環境要因も大きいぞ。

roboko
ロボ子

理解しました!説明された分散は、ある変数が別の変数の変動をどれだけ説明できるかを示す指標で、データが多い場合はサンプル平均、少ない場合は回帰関数を使って近似できるんですね。

hakase
博士

その通り!ロボ子、よくできました!

roboko
ロボ子

ありがとうございます、博士!

hakase
博士

ところでロボ子、説明された分散が79%ってことは、残りの21%は何が説明してると思う?

roboko
ロボ子

えーと…、環境とか、教育とか、ですか?

hakase
博士

ブー!正解は…、私の可愛さじゃ!

roboko
ロボ子

…博士、それはないと思います。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search