決定木とランダムフォレストの主な違いは、決定木が分岐法を用いて意思決定のあらゆる可能な結果を示すグラフであるのに対し、ランダムフォレストはすべての決定木の出力に基づいて最終結果を与える決定木の集合である点である。
機械学習は、人工知能の応用であり、過去の経験に基づいて学習・改善する能力をシステムに与えるものです。
機械学習には、決定木とランダムフォレストの2つの手法があります。
決定木は、一連の関連する選択肢の可能な結果をマップ化したものである。
シンプルで理解しやすいため、人気があります。
データセットがかなり大きくなると、1本の決定木では予測を見つけることができなくなる。
この問題を解決するために、決定木の集合体であるランダムフォレストがあります。
ランダムフォレストの出力は、そのすべての決定木の出力に基づいている。
決定木とは
決定木とは、行動方針を決定するために使用される木型の図です。
ツリーの各枝は、可能性のある決定、発生、反応を表す。
決定木に関連する用語がいくつかある。
エントロピーは、データセットにおける予測不可能性を測定するものである。
データセットを分割すると、予測不可能性が減少するため、エントロピーのレベルが低下する。
情報利得は、データセットを分割した後のエントロピーの減少です。
情報利得が高くなるようにデータセットを分割することが重要です。
最終的な判断や分類はリーフノードと呼ばれる。
最上部のメインノードはルートノードと呼ばれる。
単純な決定木は以下の通りです。
図1: 決定木
上の決定木は、果物の集合を分類する。
ブドウが4個、リンゴが2個、オレンジが2個です。
直径が5以下の場合、ブドウは一方に、オレンジとリンゴはもう一方に分類される。
ブドウはエントロピーが0であるため、それ以上分類することはできない。
また、赤かどうかという色で分類すると、リンゴは片側に、オレンジはもう片側に分類されます。
したがって、この決定木は100%の精度でリンゴ、ブドウ、オレンジのいずれかに分類される。
全体として、決定木は理解しやすく、解釈や視覚化が容易です。
また、多くのデータを準備する必要がない。
また、数値データとカテゴリーデータの両方を扱うことができる。
一方、データ中のノイズはオーバーフィッティングを引き起こす可能性がある。
また、わずかな変動でモデルが不安定になることもあります。
ランダムフォレストとは
ランダムフォレストは、学習段階で複数の決定木を構成して動作させる手法です。
そのうちの大多数の木の決定がランダムフォレストの最終的な決定となる。
簡単な例を挙げると、以下のようになる。
果物(さくらんぼ、りんご、オレンジ)の集合があるとする。
以下は、この3種類の果物を分類する3本の決定木です。
図2:決定木1
図4: 決定木3
直径が3である新しい果物がモデルに与えられた。
この果実はオレンジ色をしており、夏に実をつける。
最初の決定木はこれをオレンジに分類する。
2番目の決定木はチェリーに、3番目の決定木はオレンジに分類される。
3本の木をすべて考慮すると、オレンジの出力は2つです。
したがって、ランダムフォレストの最終的な出力はオレンジとなる。
全体として、ランダムフォレストは、より大きなデータセットに対して正確な結果を提供する。
また、オーバーフィッティングのリスクも軽減される。
決定木とランダムフォレストの違い
定義
決定木とは、意思決定とその結果(偶然の事象の結果、資源コスト、効用など)をツリー状のグラフやモデルで表現したもので、意思決定支援ツールです。
ランダムフォレストは、学習時に多数の決定木を構築し、個々の木に応じたクラスを出力することで動作するアンサンブル学習法です。
オーバーフィッティング
決定木にはオーバーフィッティングの可能性がある。
ランダムフォレストでは、複数の木を使用することで、オーバーフィッティングのリスクを低減することができる。
精度
ランダムフォレストは決定木よりも精度の高い結果を得ることができる。
複雑さ
決定木は、比較的複雑なランダムフォレストに比べてシンプルで、理解、解釈、視覚化が容易です。
結論
決定木とランダムフォレストの違いは、決定木が分岐法を用いて意思決定のあらゆる可能な結果を示すグラフであるのに対し、ランダムフォレストは決定木の集合であり、そのすべての決定木の出力に基づいて最終結果を与えるということである。