lm()

lm()

CODEDRAGON ㆍDevelopment/AI

lm()

· lm(linear mode)

· 회귀분석분석 수행 함수

· 상관분석을 실시한 결과를 이용해 가장 높은 유의성을 갖는 변수가 데이터 사용량에 미치는 영향을 추정하기 위해 단순회귀분석을 수행합니다.

· 회귀직선(선형회귀)를 그리는 함수로 반환값은 lm의 객체입니다.

· 단순 선형회귀를 기준으로 y=a + bx라는 회귀함수(회귀곡선)을 구하여 독립변수(x)에 따른 종속변수(y)값을 예측하는 모델링입니다.

lm(종속변수~설명변수, 데이터세트)

lm(formula, data, subset, weights, na.action,

method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE,

singular.ok = TRUE, contrasts = NULL, offset, …)

인자	설명
formula	· 포뮬러 · 종속변수~독립변수
data	· 포뮬러를 적용할 데이터 · 보통 데이터 프레임
subset
weights
na.action	· NA가 포함된 행을 다루는 방법을 설정합니다. · na.fail · na.omit · na.exclude
method = "qr"
model = TRUE
x = FALSE
y = FALSE
qr = TRUE
singular.ok = TRUE
contrasts = NULL
offset

formula 설정

구분	수식
회귀함수	y=a + bx
모델	dist = a + b × speed + ε
포뮬러	dist ~ speed

인자	설명
a	절편
b	기울기
ε	dist와 a + b × speed 사이의 차, 즉 오차
dist ~ speed	종속변수~독립변수

선형회귀

(x1, x2, x3, …, xn)을 n차원의 확률 변수로 하여 조건부 기대값을 가집니다.

선형회귀 종류

단순선형회귀

하나의 설명 변수에 기반한 경우

다중선형회귀

둘 이상 복수의 설명 변수에 기반한 경우

여러 독립 변수가 주어지면 이들을 +로 연결해 나열하여 중선형 회귀 모델을 만들 수 있습니다.

회귀분석 요약 결과

> summary(f)

Call:
lm(formula = do$몸무게.킬로그램 ~ do$신장.센티미터)

Residuals:
Min 1Q Median 3Q Max
-80.080 -9.208 -1.828 7.375 61.520

Coefficients:
                   Estimate Std. Error t value Pr(>|t|)
(Intercept)      -1.051e+02 9.846e-01 -106.7   <2e-16 ***
do$신장.센티미터 1.015e+00 5.633e-03   180.1   <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 12.58 on 167981 degrees of freedom
Multiple R-squared: 0.1619, Adjusted R-squared: 0.1619
F-statistic: 3.244e+04 on 1 and 167981 DF, p-value: < 2.2e-16

항목	설명
Call	· 입력한 모형식
Residuals	· 회귀식에 의해 추정된 값과 실제값(입력값)의 차이를 나타냅니다. · 최소값, 1사분위수, 중앙값, 3사분위수, 최대값을 의미합니다. · 1사분위수는 크기 순으로 자료(데이터)를 나열 했을 때 25%에 해당하는 값, 3사분위수는 75%에 해당하는 값 입니다.
Coefficients	· 추정된 회귀 계수
Intercept	· y절편

do$신장.센티미터	· (독립변수(do$신장.센티미터)의 기울기)
Residual standard error	· 표준오차. · 표준오차 값이 작아야만 회귀계수가 의미가 있습니다. · 자유도는 16, 관측값에서 -1을 한 값이 자유도가 됩니다.
Multiple R-squared	· R-squared는 결정계수 · 1에 가까울 수록 회귀계수의 설명력이 높음을 의미 합니다.
Adjusted R-squared	· 수정된 결정계수를 의미 합니다. · 1에 가까울 수록 회귀계수의 설명력이 높음을 의미 합니다. · 결정계수는 독립변수가 많아질 수록 증가하는 특징을 가지고 있습니다. · 이에 수정된 결정계수를 중심으로 회귀모형의 설명력을 측정 합니다.
F-statistic	· F통계량 · F통계량은 모형 전체의 유의성을 판단하기 위한 통계량 입니다.
p-value	· p-value

728x90

저작자표시 비영리 (새창열림)

'Development > AI' 카테고리의 다른 글

머신러닝(Machine Learning) (0)	2020.02.08
이상값 처리 (0)	2020.02.08
가설 검정의 오류 (0)	2020.02.07
유의수준(significance level; α), 귀무가설(H0)과 대립가설(H1)의 채택 (0)	2020.02.07
summary() 함수의 결과 해석 - 데이터 (0)	2020.02.07

CodeDragon

CodeDragon

태그

최근글

댓글

공지사항

아카이브

'Development > AI' 카테고리의 다른 글

관련글

티스토리툴바