概要
機械学習が解決可能な問題が、出力データにより分類か回帰カテゴリーに切り分ける。離散データ出力の場合、分類問題となり、連続データ出力の場合、回帰問題となる。それぞれの方法論もあるし、共通な方法論もある。
主な方法論
分類問題カテゴリー
・ロジスティック回帰、sigmoid関数を介して線形回帰\((wx+b)\)を\(0|1\)にマッピングして2クラス問題に適用される。Nクラス分類問題の場合、\((wx+b)\)のNセットを取得してから例えばsoftmax関数で振り分ける多重分類問題に適用される。「回帰」との文字があるのに、実は分類法である。
・サポートベクターマシンSVM、各サンプルポイントとの距離が最大となるマージン最大化超平面を利用した分類法である。
・kNN、ユークリッド距離を利用した分類法である。
・kd-tree、decision-tree、二分木を利用した分類法である。
回帰問題カテゴリー
・線形回帰、\(wx+b\)の値を出力する。これは連続値であるため、回帰問題に適用される。
・サポートベクター回帰SVR、出力する\(wx+b\)の値は、サンプルポイントから分類表面までの距離であり、連続値であるため、回帰モデルである。
共通カテゴリー
・単純ベイズ、分類と回帰に適用される。
分類の場合、yは離散カテゴリであるため、xを指定して離散\(p(y|x)\)を取得すると事後確率が得られる。回帰の場合、確率密度関数\(p(y|x)\)を取得すると事後確率関数が得られる。
・畳み込みニューラルネットワークCNN、分類と回帰に適用される。
回帰の場合、入力層~中間層~最後1つのニューロンに接続されて、\(wx+b\)を出力すると回帰問題の処理流れとなる。Nクラス分類の場合、m個のニューロンがN個のニューロンに接続されているため、異なるw値を持つ\(wx+b\)のN個のグループがあります。softmaxを使用してはNクラスの確率を得られる。
・再帰ニューラルネットワークRNN、分類と回帰に適用される。回帰および分類の場合、CNNと同様に回帰、分類問題に適用されるが、違いはRNNの入力、出力が時系列データである。
参考文献
「Statictics_Learning Method」、Lihang氏
追記
・サポートベクターマシンSVM、分類のみならず回帰にも適用される。