Beginning AI

機械学習と深層学習 

決定木のノードの分け方

今回はシンプルなCARTアルゴリズムについて解説する。

特徴としきい値

このアルゴリズムは、ある特徴(例えば身長とか)とあるしきい値(例 170cm)を使用して、データセットを分割していく。 CARTアルゴリズムは2分木なので、サブセットがふたつできる。このサブセットふたつから、それぞれジニ係数エントロピーを用いることで不純度を求めることができる。この不純度をもってこの分け方が良かったかどうかを判断できる。

特徴量が多い場合の対策

特徴量が多い場合、計算量が多くなってしまうので、予めトレーニングサンプルを用いて事前に計算を行う場合がある。 その場合、特徴量ごとに重要度(どのくらいジニ係数を下げることができたか)を計算し、重要度が低い特徴量は予め省いておく。

クラス確率について

決定木は、予測の際確率を生成することが可能である。 これは、最終的なノードにおける、クラスの割合を出力すれば良い。