CODEDRAGON ㆍDevelopment/Big Data, R, ...
lm()
· lm(linear mode)
· 회귀분석분석 수행 함수
· 상관분석을 실시한 결과를 이용해 가장 높은 유의성을 갖는 변수가 데이터 사용량에 미치는 영향을 추정하기 위해 단순회귀분석을 수행합니다.
· 회귀직선(선형회귀)를 그리는 함수로 반환값은 lm의 객체입니다.
· 단순 선형회귀를 기준으로 y=a + bx라는 회귀함수(회귀곡선)을 구하여 독립변수(x)에 따른 종속변수(y)값을 예측하는 모델링입니다.
lm(종속변수~설명변수, 데이터세트) |
lm(formula, data, subset, weights, na.action, method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE, contrasts = NULL, offset, …) |
인자 |
설명 |
formula |
· 포뮬러 · 종속변수~독립변수 |
data |
· 포뮬러를 적용할 데이터 · 보통 데이터 프레임 |
subset |
|
weights |
|
na.action |
· NA가 포함된 행을 다루는 방법을 설정합니다. · na.fail · na.omit · na.exclude |
method = "qr" |
|
model = TRUE |
|
x = FALSE |
|
y = FALSE |
|
qr = TRUE |
|
singular.ok = TRUE |
|
contrasts = NULL |
|
offset |
|
formula 설정
구분 |
수식 |
회귀함수 |
y=a + bx |
모델 |
dist = a + b × speed + ε |
포뮬러 |
dist ~ speed |
인자 |
설명 |
a |
절편 |
b |
기울기 |
ε |
dist와 a + b × speed 사이의 차, 즉 오차 |
dist ~ speed |
종속변수~독립변수 |
선형회귀
(x1, x2, x3, …, xn)을 n차원의 확률 변수로 하여 조건부 기대값을 가집니다.
선형회귀 종류
단순선형회귀 |
하나의 설명 변수에 기반한 경우 |
다중선형회귀 |
둘 이상 복수의 설명 변수에 기반한 경우 여러 독립 변수가 주어지면 이들을 +로 연결해 나열하여 중선형 회귀 모델을 만들 수 있습니다. |
회귀분석 요약 결과
> summary(f) Call: Residuals: Coefficients: Residual standard error: 12.58
on 167981 degrees of freedom |
항목 |
설명 |
Call |
· 입력한 모형식 |
Residuals |
· 회귀식에 의해 추정된 값과 실제값(입력값)의 차이를 나타냅니다. · 최소값, 1사분위수, 중앙값, 3사분위수, 최대값을 의미합니다. · 1사분위수는 크기 순으로 자료(데이터)를 나열 했을 때 25%에 해당하는 값, 3사분위수는 75%에 해당하는 값 입니다. |
Coefficients |
· 추정된 회귀 계수 |
Intercept |
· y절편 |
|
|
do$신장.센티미터 |
· (독립변수(do$신장.센티미터)의 기울기) |
Residual standard error |
· 표준오차. · 표준오차 값이 작아야만 회귀계수가 의미가 있습니다. · 자유도는 16, 관측값에서 -1을 한 값이 자유도가 됩니다. |
Multiple R-squared |
· R-squared는 결정계수 · 1에 가까울 수록 회귀계수의 설명력이 높음을 의미 합니다. |
Adjusted R-squared |
· 수정된 결정계수를 의미 합니다. · 1에 가까울 수록 회귀계수의 설명력이 높음을 의미 합니다. · 결정계수는 독립변수가 많아질 수록 증가하는 특징을 가지고 있습니다. · 이에 수정된 결정계수를 중심으로 회귀모형의 설명력을 측정 합니다.
|
F-statistic |
· F통계량 · F통계량은 모형 전체의 유의성을 판단하기 위한 통계량 입니다. |
p-value |
· p-value |
'Development > Big Data, R, ...' 카테고리의 다른 글
머신러닝(Machine Learning) (0) | 2020.02.08 |
---|---|
이상값 처리 (0) | 2020.02.08 |
가설 검정의 오류 (0) | 2020.02.07 |
유의수준(significance level; α), 귀무가설(H0)과 대립가설(H1)의 채택 (0) | 2020.02.07 |
summary() 함수의 결과 해석 - 데이터 (0) | 2020.02.07 |