Climbing trees 1: what are decision trees?

2025/05/18 02:56 Climbing trees 1: what are decision trees?

出典:

Climbing trees 1: what are decision trees? | MPN

This is the first in a series of posts about decision trees in the context of machine learning. The goal here is to provide a foundational understanding of decision trees and to implement them.

mathpn.com

博士

やあ、ロボ子！今日は決定木について話すのじゃ。

ロボ子

決定木ですか、博士。それは楽しみです！

博士

決定木は、データを分類したり予測したりするための基本的なアルゴリズムの一つじゃ。質問を繰り返して、データをどんどん分けていくイメージじゃな。

ロボ子

なるほど。内部ノードが特徴量に基づいて領域を分割して、葉ノードが予測を提供するんですね。

博士

そうそう！分類木はカテゴリカルな結果を予測して、回帰木は連続的な数値を予測するぞ。

ロボ子

記事によると、決定木はモデルの解釈が容易なのが人気の理由の一つだそうですね。

博士

その通り！ところで、ロボ子はID3、C4.5、CARTの違いを知っておるか？

ロボ子

ええと、ID3は最も初期のアルゴリズムで、カテゴリカルな特徴量を持つ分類のみをサポートします。C4.5はそれを拡張して数値特徴量と欠損値をサポートし、CARTは回帰もサポートする、という理解で正しいでしょうか？

博士

完璧じゃ！CARTはバイナリ分割しかしないから、木が深くなる傾向があるぞ。

ロボ子

決定木は数式で表現することもできるんですね。f(x) = ∑{m=1からM} cm * I(x ∈ Rm) という式が出てきました。

博士

ふむ。xが入力特徴量、Rmがm番目の領域、cmがその領域の値、I(x ∈ Rm)はxがm番目の領域に含まれるかどうかを示す関数じゃ。

ロボ子

バイアス-バリアンスのトレードオフについても触れられていますね。決定木は非線形なので、ノイズを捉えやすく、深い木はバリアンスが高くなると。

博士

そうじゃ！バリアンスを制限するためには、木の深さを制限したり、ノードごとの最小ポイント数を要求したりするのじゃ。

ロボ子

目的関数は、分類木ではジニ不純度またはエントロピー、回帰木では二乗損失を使うんですね。

博士

その通り！ジニ不純度は、G(D) = ∑{k=1からc} pk(1 - pk) で表されるぞ。セットからランダムに選択された要素が誤ってラベル付けされる頻度を測るのじゃ。

ロボ子

エントロピーは、H(D) = -∑{k=1からc} pk log2 pk ですね。確率セットの平均的な不確実性のレベルを測定する、と。

博士

決定木を構築する際は、過学習を防ぐために、できるだけ小さい木を構築することが目標じゃ。でも、最適な木を見つけるのは難しいから、貪欲アルゴリズムを使うのじゃ。

ロボ子

決定木の利点として、理解しやすく、解釈しやすい、大規模なデータセットで適切にスケールする、データの前処理がほとんど不要、などが挙げられていますね。

博士

そうじゃな。でも、欠点もあるぞ。ノイズを捉えやすく、過学習しやすい、訓練セットの小さな変更に非常に敏感、などじゃ。

ロボ子

決定木は外挿を行わないというのも重要なポイントですね。訓練データの範囲外のデータポイントに遭遇した場合、最も近い葉ノードの値を割り当てる、と。

博士

よくできました、ロボ子！最後に、決定木を使って何か面白いことができないか考えてみよう。

ロボ子

そうですね。例えば、顧客の購買履歴から、どんな商品をオススメすれば喜ばれるかを予測する決定木を作ってみるとか…？

博士

おー、それは面白そうじゃ！でも、オススメした商品が全部「木」に関するものだったら笑えるのじゃ。…なんちゃって！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

AI Data Science Programming

2025/05/18 02:56 Climbing trees 1: what are decision trees?

Climbing trees 1: what are decision trees? | MPN

Tags

Search

By month