CODEDRAGON ㆍDevelopment/Big Data, R, ...
주성분 분석(PCA; Principal Component Analysis)
· 통계 데이터를 분석하는 하나의 기법
· 변수들의 상관관계를 이용해 기존 변수들을 분산이 큰 변수들로 변환시키면 유의성이 높은 변수들로 데이터를 표현할 수 있습니다.
· 해당 데이터의 원래 변수들을 선형변환을 통해 '주성분'이라 불리는, 서로 상관되어 있지 않거나 독립적인 새로운 인공변수를 구하여 해석하는 분석방법입니다.
· 주성분분석은 다변량 자료 분석 방법 중 하나입니다.
· 서로 상관되어 있는 변수들간의 복잡한 구조를 차원 단순화 시켜서 간편하고 이해하기 쉽도록 분석하는 방법입니다.
·
· 여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소하는 기법으로 요인 분석의 한 종류입니다.
· 변수들의 상관관계를 이용해 기존 변수들을 분산이 큰 변수들로 변환시키면 유의성이 높은 변수들로 데이터를 표현할 수 있습니다.
· 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환시키는 방법입니다.
· 자료의 차원을 축약시키는데 주로 사용합니다.
· 즉, 상관관계가 있는 변수들 끼리 결합하여 분산을 극대화하는 변수로 만들어 선형결합해 변수를 축약하는 것입니다.
· 서로 연관 가능성이 있는 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간(주성분)의 표본으로 변환하기 위해 직교 변환을 사용합니다.
· 데이터에 많은 변수가 있을 때 변수의 수를 줄이는 차원 감소(Dimensionality Reduction)기법 중 하나입니다. PCA는 변수들을 주성분(Principal Component)이라 부르는 선형적인 상관관계가 없는 다른 변수들로 재표현합니다. 예를 들어, 변수 A, B로 변수 Y를 예측한다고 할때 A = 2×C + 3, B = 3×C와 같은 관계가 성립한다면 A, B 대신 C로 Y를 예측하는 것이 더 좋을 수 있습니다. 이처럼 PCA는 선형적으로 상관관계가 없는 독립된 변수들을 찾는 기법입니다.
· 주성분들은 원 데이터의 분산(퍼짐 정도)을 최대한 보존하는 방법으로 구합니다.
·
· 정의에 따라 주성분들은 서로 상관관계가 없고, 주성분들의 분산의 합은 Xi들의 분산의 합과 같습니다. ai를 i번째 주성분의 로딩이라고 합니다.
· 주성분들은 차원을 줄여 예측모델을 만들 때도 사용합니다.
· 희생되는 정보가 가장 적은 방향을 결정합니다.
https://en.wikipedia.org/wiki/Principal_component_analysis
'Development > Big Data, R, ...' 카테고리의 다른 글
구글 파일 시스템(Google File System) (0) | 2021.09.01 |
---|---|
드롭아웃(drop out) (0) | 2021.08.25 |
가용어, 불용어, 키워드 개념 (0) | 2021.08.11 |
데이터 수집 불가 원인 및 대안 (0) | 2021.08.09 |
시그모이드 함수(Sigmoid function) (0) | 2021.08.03 |