線形回帰とロジスティック回帰の主な違いは、線形回帰が連続値を予測するために使用されるのに対し、ロジスティック回帰は離散値を予測するために使用されることである。
機械学習システムは、過去の入力の学習に基づいて、将来の結果を予測することができます。
機械学習には大きく分けて「教師あり学習」と「教師なし学習」の2種類があります。
回帰と分類は教師あり学習に属し、クラスタリングは教師なし学習に属する。
教師あり学習は、ラベル付けされたデータを用いてデータセットを学習する。
教師あり学習アルゴリズムには線形回帰とロジスティック回帰があります。
線形回帰は従属変数が連続的であり,モデルが線形である場合に使用される.ロジスティック回帰は従属変数が離散的であり、モデルが非線形である場合に使用される。
線形回帰とは
線形回帰は,独立変数と従属変数の間の関係性を見つける.両者は連続する.独立変数は,他の変数によって変化しない変数であり,x で示される.x1, x2, x3 などの複数の独立変数があることもある.従属変数は独立変数によって変化し、yと表記される。
独立変数が1つの場合、回帰式は次のようになる。
y = b0+ b1x
例えば、xが降雨量、yが作物収量を表すとする。
データセットは上のようになります。
そして、データ点のほとんどをカバーする直線が選択される。
この線は、予測値を表す。
図2:実際のデータ点と予測値との距離
次に、上のグラフに示すように、各データ点から直線までの距離を求めます。
これが実際の値と予測値との距離です。
この距離は、誤差または残差とも呼ばれます。
最適な直線は、誤差の二乗和が最小であるべきです。
新しい雨量値(x)が与えられると、この線を用いて対応する作物収量(y)を求めることができる。
現実の世界では、複数の独立変数(x1, x2, x3…)が存在することがあります。
これを重回帰といいます。
重回帰式は次のようになります。
ロジスティック回帰とは
ロジスティック回帰は,2つのクラスを分類するために使用できる.これはバイナリ分類とも呼ばれます。
電子メールがスパムかどうかをチェックする 顧客が製品を買うかどうかを予測する、プロモーションが可能かどうかを予測するなどは、ロジスティック回帰の他の例です。
学生が1日に勉強した時間数を独立変数とする。
それに応じて、試験に合格する確率が計算される。
0.5を閾値とする.新しい時間数が与えられると、このグラフを使って対応する試験の合格確率を求めることができる。
確率が0.5以上であれば、1または合格とみなされる。
確率が0.5以下であれば、0または不合格とみなされる。
シグモイド関数に線形回帰式を適用すると、ロジスティック回帰式が得られます。
シグモイド関数は
もう1つ重要なことは、ロジスティック回帰は2クラス分類にしか使えないということです。
多クラス分類には使えません。
Linear Regression と Logistic Regression の違い
定義
線形回帰は、従属変数と1つ以上の独立変数の間の関係をモデル化する線形アプローチです。
対照的に、ロジスティック回帰は、2つの値しか持ち得ない結果の確率を予測する統計モデルです。
使用方法
線形回帰が回帰問題を解くのに使われるのに対し、ロジスティック回帰は分類問題(2値分類)を解くのに使われます。
メソドロジー
線形回帰は、独立変数に変化があったときに、従属変数を推定する。
ロジスティック回帰は、あるイベントが発生する可能性を計算する。
これは、線形回帰とロジスティック回帰の重要な違いの1つです。
出力値
また、線形回帰では、出力値は連続的です。
ロジスティック回帰では、出力値は不連続です。
モデル
線形回帰は直線を用いますが、ロジスティック回帰はS字カーブやシグモイド関数を用います。
例
国のGDP予測、製品価格予測、住宅販売価格予測、スコア予測などが線形回帰の例です。
電子メールがスパムかどうかの予測、クレジットカード決済が不正かどうかの予測、顧客が融資を受けるかどうかの予測などは、ロジスティック回帰の例です。
結論
線形回帰とロジスティック回帰の違いは、線形回帰が連続値の予測に使われるのに対して、ロジスティック回帰は離散値の予測に使われることです。
簡単に言うと、線形回帰は回帰に使用され、ロジスティック回帰は分類に使用されます。