summary() 함수의 결과 - 회귀모델, 해석하기

CODEDRAGON Development/Big Data, R, ...

반응형

 

 

 

summary() 함수의 결과 - 회귀모델

 

> summary(m)

Call:
lm(formula = dist ~ speed, data = cars)

Residuals:
    Min      1Q  Median      3Q     Max
-29.069  -9.525  -2.272   9.215  43.201

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) -17.5791     6.7584  -2.601   0.0123 * 
speed         3.9324     0.4155   9.464 1.49e-12 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 15.38 on 48 degrees of freedom
Multiple R-squared:  0.6511,        Adjusted R-squared:  0.6438
F-statistic: 89.57 on 1 and 48 DF,  p-value: 1.49e-12

 

>

 

항목

설명

Call:

·         회귀분석에 사용된 모델 

·         어떤 포뮬러 사용해 수행했는지 알려줍니다.

Residuals:

·         잔차

·         회귀선의 값과 실제 관측 값의 차이를  분위수로 표시합니다.

Coefficients:

·         절편

·         독립변수 등에 대한 회귀계수(모델의 계수)  계수들의 통계적 유의성 표시합니다.

 

 

Residual standard error

·         잔차의 표준오차와 자유도를 나타냅니다.

Multiple R-squared:

·         결정 계수(R-squared)

·         R2으로도 표시합니다.

·         추정된 회귀선이 '실제 관측 값을 얼마나  설명하는가' 나타냅니다.

·         0에서 1사이의 값을 가지며 1 실제 관측값들이 회귀선 상에 위치함을 의미합니다.

·         Multiple R-squared, Adjusted R-squared 모델이 데이터의 분산을 얼마나 설명하는지를 알려줍니다.

 

 

Adjusted R-squared:

·         수정된 결정 계수(Adjusted R-squred)

·         주로 다중회귀분석에서 독립변수를 증가시키면 결정계수가 올라가는 것에 대한 대안으로 사용합니다.

·         모델이 대상 변수의 몇 %l 설명하는지를 확인합니다.

·         결정계수(Multiple R-squared) 차이가 크면 회귀모형을 재검토해야 합니다.

F-statistic:

·         F 통계량

·         모델이 통계적으로 얼마나 의미가 있는지(유의성) 알려줍니다.

·         계수  하나라도 0 아닌 것이 있다면  모형은 유의미하다고 판단합니다.

·         F 통계량은 MSR/MSE 비율을 F 분포를 사용해 검정한 것입니다.

·         summary() 보여주는 F 통계량은 anova() 함수를 사용해 직접 구할  있습니다.

·         t value 값을 제곱한 값이 F 통계량입니다.

 

 

p-value

·          변수가 대상 변수에 유의하게 영향을 미치는 지를 확인하기 위해 사용합니다.

·         p-value 보면 0.05하에 있으면 모형은 유의합니다.

·         0.05보다 작은 경우  변수는 유의하게 결과 변수를 설명한다고   있습니다.