CODEDRAGON ㆍDevelopment/Big Data, R, ...
summary() 함수의 요약정보 해석
전반적인 기초 통계량을 보여주는 summary() 함수의 요약정보 해석하기
iris데이터에 대한 summary()함수의 실행결과입니다.
> summary(iris) |
> |
Sepal.Length 컬럼과 같이 수치형 데이터에 대해서는 최솟값Min, 1사분위수1st Qu, 중앙값Median, 평균Mean, 3사분위수3rd Qu, 최댓값Max을 보여줍니다.
팩터 데이터 Species에 대해서는 각 레벨(수준)level마다 몇 개의 값이 있는지를 보여줍니다.
분위수(Quantile)는 데이터를 크기 순서로 늘어놓았을 때 25%에 해당하는 값을 제1사분위수, 50%에 해당하는 값을 중앙값(median), 75%에 해당하는 값을 제3사분위수로 표시합니다.
컬럼 |
설명 |
min |
· 최솟값 |
1st Qu |
· Lower Quartile · 1사 분위수 (25% 분위수) · 컬럼 데이터를 오름차순으로 정렬하여 아래에서부터 25% 위에 있는 값 · 즉, 하위 25%의 값을 의미 |
Median |
· 중앙값(median) ≒ 중위수 ≒ 2사분위수 · 데이터를 크기대로 정렬하였을 때 가장 가운데에 있는 수 · 컬럼 데이터를 오름차순으로 정렬하여 가운데에 있는 값 · 데이터의 수가 짝수이면 가장 가운데에 있는 두 수의 평균을 사용합니다. |
Mean |
· 평균값 |
3st Qu |
· Upper Quartile · 3사 분위수 (75% 분위수) · 컬럼 데이터를 오름차순으로 정렬하여 아래에서부터 75% 위에 있는 값 · 즉, 상위 75%의 값을 의미 |
Max |
· 최댓값 |
NA's |
· NA(결측치)에 대한 개수를 확인할 수 있습니다. |
https://codedragon.tistory.com/9930
https://codedragon.tistory.com/666
cor()
데이터 집합 내 변수간의 상관 계수(Correlation Coefficient)를 구해 주는 R함수입니다.
https://codedragon.tistory.com/9735
https://codedragon.tistory.com/9642
'Development > Big Data, R, ...' 카테고리의 다른 글
텍스트 마이닝(Text Mining) (0) | 2020.01.13 |
---|---|
활성화 함수(Activation Function), 주요 활성 함수-계단(Step)함수, 부호(sign), threshold함수, 시그모이드(Sigmoid) 함수, 소프트맥스(Softmax)함수, 표준화지수(일반화로지스틱)함수, tanh 함수, 가우스(Gauss).. (0) | 2020.01.12 |
esquisse - ggplot2 Interactive builder (0) | 2020.01.12 |
수행 내용-수집 시스템 구축하기 (0) | 2020.01.11 |
군집 분석 방법에 사용되는 함수 (0) | 2020.01.11 |