주성분 분석(PCA; Principal Component Analysis)

CODEDRAGON Development/Big Data, R, ...

반응형

 

 

 

주성분 분석(PCA; Principal Component Analysis)

·       통계 데이터를 분석하는 하나의 기법

·       변수들의 상관관계를 이용해 기존 변수들을 분산이 큰 변수들로 변환시키면 유의성이 높은 변수들로 데이터를 표현할 수 있습니다.

·       해당 데이터의 원래 변수들을 선형변환을 통해 '주성분'이라 불리는, 서로 상관되어 있지 않거나 독립적인 새로운 인공변수를 구하여 해석하는 분석방법입니다.

·       주성분분석은 다변량 자료 분석 방법 하나입니다.

·       서로 상관되어 있는 변수들간의 복잡한 구조를 차원 단순화 시켜서 간편하고 이해하기 쉽도록 분석하는 방법입니다.

·        

·       여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소하는 기법으로 요인 분석의 종류입니다.

·       변수들의 상관관계를 이용해 기존 변수들을 분산이 변수들로 변환시키면 유의성이 높은 변수들로 데이터를 표현할 있습니다.

 

·       상관관계 있는 고차원 자료 자료의 변동을 최대한 보존하는 저차원 자료 변환시키는 방법입니다.

·       자료의 차원을 축약시키는데 주로 사용합니다.

·       , 상관관계가 있는 변수들 끼리 결합하여 분산을 극대화하는 변수로 만들어 선형결합해 변수를 축약하는 입니다.

·       서로 연관 가능성이 있는 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간(주성분) 표본으로 변환하기 위해 직교 변환을 사용합니다.

·       데이터에 많은 변수가 있을 변수의 수를 줄이는 차원 감소(Dimensionality Reduction)기법 하나입니. PCA 변수들을 주성분(Principal Component)이라 부르는 선형적인 상관관계가 없는 다른 변수들로 재표현합니다. 예를 들어, 변수 A, B로 변수 Y를 예측한다고 할때 A = 2×C + 3, B = 3×C와 같은 관계가 성립한다면 A, B 대신 C Y를 예측하는 것이 더 좋을 수 있습니다. 이처럼 PCA는 선형적으로 상관관계가 없는 독립된 변수들을 찾는 기법입니다.

·       주성분들은 원 데이터의 분산(퍼짐 정도)을 최대한 보존하는 방법으로 구합니다.

 

·       

 

·       정의에 따라 주성분들은 서로 상관관계가 없고, 주성분들의 분산의 합은 Xi들의 분산의 합과 같습니다. ai i번째 주성분의 로딩이라고 합니다.

 

·       주성분들은 차원을 줄여 예측모델을 만들 때도 사용합니다.

·       희생되는 정보가 가장 적은 방향을 결정합니다.

 

 

https://en.wikipedia.org/wiki/Principal_component_analysis