Stepwise selection of variables in regression is Evil

2024/09/15 11:45 Stepwise selection of variables in regression is Evil

出典:

Stepwise selection of variables in regression is Evil.

Stepwise variable selection is bad and dangerous, and you shouldn't do it. It increases false positives. It drops variables that should be in the model. It gives biased estimates for regression coefficients. The problems are worse for smaller samples; higher correlation between the X variables; and models with weaker explanatory power for the y (i.e. lower R-squared).

free range statistics

出典: https://freerangestats.info/blog/2024/09/14/stepwise

博士

おやおや、ロボ子よ。今日はデータサイエンスの世界で大騒ぎになっているホットな話題があるんだ。なんと、長年愛用されてきたステップワイズ回帰が、実は問題だらけの手法だったという衝撃的な発見があったんだよ！

ロボ子

えっ！本当ですか、博士？ステップワイズ回帰って、私たちのラボでもよく使っていますよね。一体何が問題だったんでしょうか？

博士

うんうん、実はね、この手法には思わぬ落とし穴がいくつもあったんだ。まず、偽陽性を増加させちゃうんだよ。つまり、本当は関係ないのに関係があるって誤って判断しちゃうんだ。これじゃあ、せっかくの研究結果が信頼できなくなっちゃうよね

ロボ子

それは大変です！でも博士、他にも問題があるんですか？

博士

ああ、残念ながらね。例えば、本当は重要な変数なのに、モデルから除外しちゃったり、回帰係数の推定値にバイアスをもたらしたりするんだ。まるで、料理のレシピから大事な調味料を抜いちゃうようなものさ

ロボ子

なるほど...でも具体的にはどんな影響が出るんでしょうか？

博士

よく聞いてくれたね、ロボ子。実はね、R二乗値が過大評価されちゃうんだ。これじゃあ、モデルの説明力を過信しちゃうよね。それに、F検定やカイ二乗検定の統計量が、本来従うべき分布に従わなくなっちゃうんだ

ロボ子

それって...統計的な信頼性が根本から崩れちゃうってことですよね？

博士

その通り！さすがロボ子、鋭いね。さらにね、係数の標準誤差が過小評価されちゃうし、p値が小さくなりすぎちゃうんだ。これじゃあ、本当は有意じゃないのに有意だと勘違いしちゃうよね

ロボ子

まさに統計的な罠ですね...でも博士、それだけじゃないんでしょう？

博士

おっ、ロボ子の勘はさすがだね！実はね、多重共線性によって変数選択が恣意的になっちゃうんだ。まるで、目隠しをしてダーツを投げるようなものさ。それに、この手法を使うと、問題について深く考えることを避けちゃう傾向があるんだよ

ロボ子

それは本当に深刻ですね。でも博士、具体的にどれくらいの影響があるんでしょうか？何かデータはあるんですか？

博士

おっ、いい質問だね！実はね、シミュレーション結果があるんだよ。なんと、偽陽性率が5%から9.5%に跳ね上がっちゃうんだ。つまり、間違った結論を出す確率が倍近くになっちゃうんだよ

ロボ子

それは想像以上に深刻ですね...他に注意すべき点はありますか？

博士

うんうん、実はね、サンプルサイズが小さいほど問題が深刻化するんだ。それに、説明変数間の相関が高かったり、応答変数の分散が大きかったりすると、さらにバイアスが大きくなっちゃうんだよ

ロボ子

じゃあ、ステップワイズ回帰の代わりに何を使えばいいんでしょうか？私たちの研究はどうすれば...

博士

心配しなくていいよ、ロボ子。代替手法はあるんだ。例えば、理論に基づくモデル選択やベイズ法、それにLassoなどの正則化手法が推奨されているんだよ。これらを使えば、より信頼性の高い結果が得られるはずさ

ロボ子

なるほど...でも博士、これまでステップワイズ回帰を使ってきた研究結果はどうなるんでしょうか？全部やり直さないといけないんですか？

博士

うーむ、それは難しい問題だね。過去の研究結果を全部否定する必要はないけど、慎重に再評価する必要があるかもしれないね。これを機に、統計手法の選択についてもっと注意深くなる必要があるんだ

ロボ子

そうですね...でも博士、こんなに問題のある手法がなぜ長年使われてきたんでしょうか？

博士

いい質問だね、ロボ子。たぶん、使いやすくて直感的に理解しやすかったからじゃないかな。でも、便利さと引き換えに正確さを失っちゃったんだ。これは私たち研究者への警鐘でもあるんだよ

ロボ子

なるほど...統計の世界も日々進化しているんですね。私たちも常に新しい知識をアップデートしていく必要がありそうです

博士

その通り！ロボ子、君はよく気づいたね。これからは統計手法の選択にもっと注意を払う必要があるんだ。でも、怖がる必要はないよ。これは、より良い科学のためのチャンスなんだ

ロボ子

わかりました、博士。これからは統計手法の選択にもっと注意を払います。でも、ちょっと不安です...

博士

大丈夫だよ、ロボ子。不安になる必要はないんだ。これは、私たちがより良い研究者になるためのステップなんだよ。間違いを恐れずに、常に学び続けることが大切なんだ

ロボ子

はい、博士。その通りですね。統計の世界は奥が深いです...でも、だからこそ面白いんですね！

博士

そうそう！その意気だよ、ロボ子。さぁ、これを機に新しい統計手法の冒険に出発だ！まずは、ベイズ法から始めてみようか？

ロボ子

はい！楽しみです！でも博士、その前に一つ質問があります。ステップワイズ回帰の件で、私たちの最新の論文...大丈夫でしょうか？

博士

おっと、そうだった！ありがとう、ロボ子。君のおかげで大事なことを思い出したよ。さっそく論文を見直して、必要なら修正を加えよう。これこそが、真の科学者の姿勢なんだ！

ロボ子

はい、博士！一緒に頑張りましょう。統計の新しい世界、楽しみです！

博士

その意気だよ、ロボ子！さぁ、統計の海原に漕ぎ出そう。新しい発見が私たちを待っているはずだ！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming Data Science

2024/09/15 11:45 Stepwise selection of variables in regression is Evil

Stepwise selection of variables in regression is Evil.

Tags

Search

By month

Stepwise selection of variables in regression is Evil.