決定木分析とは
決定木分析(Decision Tree)は、データから、ある意識や行動(従属変数)に共通するパターン(独立変数の組み合わせ)を見つけ出す手法。 従属変数の分類に強く影響する独立変数や、より特定の層が多いのはどんな特徴を持った人たちかが明確になる。
- 機械学習の分野における予測モデルのひとつ。作成したモデルを活用することで、「対象の分類」「物事の予測」「リスクの判断」などに活用することができる。
- 分類したいデータを従属変数(目的変数)、分類するために用いるデータを独立変数(説明変数)という。
例)従属変数=購入意向、リピート有無、購入回数や頻度(ヘビー/ミドル/ライト)など。
独立変数=性別、年代、年収などの属性、その他各種質問項目(回答形式は問わない) - 従属変数を最もよく「分類」する独立変数から、機械的に分岐を生成していく。
アウトプットが樹形図のような形式になっていることから、「決定木」と呼ばれている。
使用例
対象の分類
- ・自社の顧客別の購買履歴から、ヘビーユーザーの特徴を分析する。
- ・消費者のセグメンテーションをおこなう。
(サービスの利用意向や新商品の購入意向が高いセグメントを見つけ出す)
物事の予測
- ・機械の動作ログから故障につながる指標を見つけ出す。
リスクの判断
- ・金融機関の取引履歴から顧客属性別の貸し倒れリスクを予測する。
メリット
- データの前処理があまり必要ない。
- アウトプットの解釈が容易。
- メインターゲットを特定する際に、何度もクロス集計を繰り返す必要がない。
アウトプット

- 「ノード」は、変数や分岐条件を表す。
- さらに、分岐元のノードを「親ノード」、分岐先のノードを「子ノード」という。
上記の例では、「生死」を「男性」「女性」の親ノードで、 「男性」「女性」は「生死」の子ノードである。
初期状態。
この状態から、各層の比率の差が大きくなるように、解析が進む。
この状態から、各層の比率の差が大きくなるように、解析が進む。
分割1段目。数ある変数のうち、最も各層の比率の差を大きくする変数が選ばれる。
その回答結果が何かが、分割後の下に表示される。ここでは【男性(左)】と【女性(右)】で分割されている。
この結果、左側は死亡率が高い集団へ、右側は生還率が高い集団へ分けられる。
以降も、この差が統計上有意でない段階か、N数が一定値より少ない段階まで、解析が自動で続けられる。
例:タイタニック号の生還者と死亡者に関するデータ
アウトプットイメージと用語の説明

分析に必要なデータ
設問形式
SA、MA、5スケール、数値回答・・・など設問タイプは不問
サンプル数
サンプル数が少ない場合、階層(枝)が深く分かれないため、出したい分岐の数と深さに応じて設定
目安としては、分岐数が2つ(例:意向あり/なし)×4~5階層を想定する場合で、2,000~3,000サンプル
対象者条件
例えば、「購入の有無を分ける要素」を見出したいときは、分析対象サンプルの中に、「購入者」と「非購入者」の両方が含まれている必要があることに留意