lm()

CODEDRAGON Development/Big Data, R, ...

반응형




 

 

lm()

·         lm(linear mode)

·         회귀분석분석 수행 함수

·         상관분석을 실시한 결과를 이용해 가장 높은 유의성을 갖는 변수가 데이터 사용량에 미치는 영향을 추정하기 위해 단순회귀분석을 수행합니다.

·         회귀직선(선형회귀) 그리는 함수로 반환값은 lm 객체입니다.

·         단순 선형회귀를 기준으로 y=a + bx라는 회귀함수(회귀곡선) 구하여 독립변수(x) 따른 종속변수(y)값을 예측하는 모델링입니다.

 

 

 

lm(종속변수~설명변수, 데이터세트)

lm(formula, data, subset, weights, na.action,

   method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE,

   singular.ok = TRUE, contrasts = NULL, offset, …)

 

인자

설명

formula

·         포뮬러

·         종속변수~독립변수

data

·         포뮬러를 적용할 데이터

·         보통 데이터 프레임

subset

 

weights

 

na.action

·         NA 포함된 행을 다루는 방법을 설정합니다.

·         na.fail

·         na.omit

·         na.exclude

method = "qr"

 

model = TRUE

 

x = FALSE

 

y = FALSE

 

qr = TRUE

 

singular.ok = TRUE

 

contrasts = NULL

 

offset

 

 

 

formula 설정

구분

수식

회귀함수

y=a + bx

모델

dist = a + b × speed + ε

포뮬러

dist ~ speed

 

인자

설명

a

절편

b

기울기

ε

dist a + b × speed 사이의 , 오차

dist ~ speed

종속변수~독립변수

 

 

 

 

 

 

선형회귀

(x1, x2, x3, , xn) n차원의 확률 변수로 하여 조건부 기대값을 가집니다.

 

 

 

 

선형회귀 종류

단순선형회귀

하나의 설명 변수에 기반한 경우

다중선형회귀

이상 복수의 설명 변수에 기반한 경우

여러 독립 변수가 주어지면 이들을 + 연결해 나열하여 중선형 회귀 모델을 만들 있습니다.

 

 

 

 

 

회귀분석 요약 결과

> summary(f)

Call:
lm(formula = do$
몸무게.킬로그램 ~ do$신장.센티미터)

Residuals:
    Min      1Q  Median      3Q     Max
-80.080  -9.208  -1.828   7.375  61.520

Coefficients:
                   Estimate Std. Error t value Pr(>|t|)   
(Intercept)      -1.051e+02  9.846e-01  -106.7   <2e-16 ***
do$
신장.센티미터  1.015e+00  5.633e-03   180.1   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 12.58 on 167981 degrees of freedom
Multiple R-squared:  0.1619,        Adjusted R-squared:  0.1619
F-statistic: 3.244e+04 on 1 and 167981 DF,  p-value: < 2.2e-16

 

항목

설명

Call

·         입력한 모형식

Residuals

·         회귀식에 의해 추정된 값과 실제값(입력값) 차이를 나타냅니다.

·         최소값, 1사분위수, 중앙값, 3사분위수, 최대값을 의미합니다.

·         1사분위수는 크기 순으로 자료(데이터) 나열 했을 25% 해당하는 , 3사분위수는 75% 해당하는 입니다.

Coefficients

·         추정된 회귀 계수

Intercept

·         y절편

 

 

do$신장.센티미터

·         (독립변수(do$신장.센티미터) 기울기)

Residual standard error

·         표준오차.

·         표준오차 값이 작아야만 회귀계수가 의미가 있습니다.

·         자유도는 16, 관측값에서 -1 값이 자유도가 됩니다.

Multiple R-squared

·         R-squared 결정계수

·         1 가까울 수록 회귀계수의 설명력이 높음을 의미 합니다.

Adjusted R-squared

·         수정된 결정계수를 의미 합니다.

·         1 가까울 수록 회귀계수의 설명력이 높음을 의미 합니다.

·         결정계수는 독립변수가 많아질 수록 증가하는 특징을 가지고 있습니다.

·         이에 수정된 결정계수를 중심으로 회귀모형의 설명력을 측정 합니다.

 

F-statistic

·         F통계량

·         F통계량은 모형 전체의 유의성을 판단하기 위한 통계량 입니다.

p-value

·         p-value