다중 공선성 문제 해결

CODEDRAGON Development/Big Data, R, ...

반응형

 

 

다중 공선성 문제 해결

해결방법

·       설명

변수 제거

·       다중공선성 문제를 일으키는 변수를 제외합니다.

·       일반적으로 다중공선성 문제를 일으키는 변수 중 종속변수와의 상관 관계가 높은 것을 남겨둡니다. 상관 관계의 차이가 거의 없다면 해석이 용이한 설명변수를 남겨 둡니다.

·       모형에 고려된 설명변수의 수가 적으면 제거하는 방법보다는 다른 방법을 사용하는 것을 권장합니다.

주성분 분석 이용하기

·       주성분 분석는 원 변수의 변동(공분산, 상관계수)을 이용하여 변동을 가장 잘 설명하는 주성분 변수를 차례로 찾는 것입니다. 물론 주성분 변수의 개수는 원 변수의 개수와 같습니다. 대신 첫번째 주성분의 설명력이 가장 높고 차례로 낮아지며 서로 독립입니다.

·       주성분 변수를 이용하면 다중공선성 문제는 해결할 수 있으나 주성분 변수( Zk )에 대한 해석이 용이하지 않는 단점이 있어 자주 사용되지는 않습니다.

능형 회귀분석(Ridge Regression)

·       다중공선성은 회귀계수의 분산을 증가시키므로 불편성(OLS: 불편 추정량)을 포기하는 대신 MSE(Mean Square of Error; 평균 제곱 오차)를 최소화 하는 편기(biased) 추정량을 구하는 계수추정 방법을 사용함으로써 다중공선성 문제를 해결하는데 이를 능형 회귀분석이라고 합니다.

 

 

 

 

 

 

최소제곱법(OLS; ordinary least squares)

https://codedragon.tistory.com/8403

 

 

 

 

 

 

편기(biased)

https://codedragon.tistory.com/8341

 


반응형