PCA(主成分分析)という教師なし学習手法があるわけだけど、正直意味があるのか疑問。
PCAは分散が大きい方向だけを使うことで次元を削減させる等に使われるわけだけれど、果たして「分散が大きい方向」というのが本当に重要な特徴なのか疑問。
だいたい、データなんていうものは、例えば、身長とか体重とか年齢とかそういうもので、単位も意味も違う特徴量の寄せ集めなわけで、それらをごちゃ混ぜにして分散が大きい方向とか言ったってそれで重要性を判断するのは強引すぎると思うわけです。
ほんの少しの差が結果に大きく寄与することだって十分考えられるわけです。
そういった問題を避けるために、データを標準化してからPCAかけたとしても、全部の軸が平均0分散1になった状態で「分散が大きい方向」ってさらに意味があるのか疑問。単にお互いに相関の高い複数の軸の方向に偏るだけなんじゃないだろうか。
多次元の空間を人間が認識しやすいように低次元で表現するとかいうことには確かに意味があるかもしれないが、PCAで次元削減なんかすると本当に重要な情報が過小評価されて、悪影響しかないように思う。
他に何かPCAって意味があるんだろうか。教えてエロい人。
Photo by Nick Hillier on Unsplash