차원축소 (Demension Reduction)

차원축소 (Demension Reduction)

2020. 12. 14. 21:35ㆍmachine learning

728x90

비지도 학습 중 하나로 , 다차원의 dataset에서 차원을 축소해 새로운 dataset을 생성하는 것입니다.

다차원이면 data point간 거리가 기하급수적으로 멀어지고 sparse한 구조가 되므로 예측 신뢰도가 떨어집니다.

개별 피쳐간 상관관계가 높을 가능성이 커지기 때문입니다.

개별피쳐간 상관관계가 높다 = 다중공선성 존재

선형모델에서는 다중공선성 (Multicollinearity)이 존재하면 모델의 예측 성능이 떨어집니다.

이럴 때 차원을 축소시켜주면 직관적인 해석이 가능해집니다. 즉, 시각적표현이나 학습 처리가 편리해진다는 것 입니다.

차원축소에는 크게 Feature Selection, Feature Extraction이 있습니다.

Feature Selection

특정 feature에 종속성 강한 불필요한 feature을 제거
= 주요 feature만 추출

Feature Extraction

기존 feature을 저차원의 중요 feature로 압축해서 추출
=
기존 feature와는 완전히 다른 값.
단순한 압축이 아닌 feature을 함축적으로 설명해주는 다른공간으로 mapping해 추출하는 것
=
잠재적 요소 추출

이미지에 사용하면 overfitting을 줄일 수 있고
텍스트에 사용하면 semantic이나 topic같은 잠재요소를 알 수 있습니다.

1. PCA

변수간 상관관계를 이용해 Principal Component(주성분)을 추출합니다. 컴퓨터 비전에 많이 사용됩니다.

정보유실을 최소화하기 위해 높은 분산을 갖는 데이터 축으로 차원축소를 진행합니다.