CODEDRAGON ㆍDevelopment/Big Data, R, ...
summary() 함수의 결과 - 데이터
> summary(do$신장.센티미터) |
> |
> summary(iris) |
> |
Sepal.Length 컬럼과 같이 수치형 데이터에 대해서는 최솟값Min, 1사분위수1st Qu, 중앙값Median, 평균Mean, 3사분위수3rd Qu, 최댓값Max을 보여줍니다.
팩터 데이터 Species에 대해서는 각 레벨(수준)level마다 몇 개의 값이 있는지를 보여줍니다.
분위수(Quantile)는 데이터를 크기 순서로 늘어놓았을 때 25%에 해당하는 값을 제1사분위수, 50%에 해당하는 값을 중앙값(median), 75%에 해당하는 값을 제3사분위수로 표시합니다.
컬럼 |
설명 |
min |
· 최솟값 |
1st Qu |
· Lower Quartile · 1사 분위수 (25% 분위수) · 컬럼 데이터를 오름차순으로 정렬하여 아래에서부터 25% 위에 있는 값 · 즉, 하위 25%의 값을 의미 |
Median |
· 중앙값(median) ≒ 중위수 ≒ 2사분위수 · 데이터를 크기대로 정렬하였을 때 가장 가운데에 있는 수 · 컬럼 데이터를 오름차순으로 정렬하여 가운데에 있는 값 · 데이터의 수가 짝수이면 가장 가운데에 있는 두 수의 평균을 사용합니다. |
Mean |
· 평균값 |
3st Qu |
· Upper Quartile · 3사 분위수 (75% 분위수) · 컬럼 데이터를 오름차순으로 정렬하여 아래에서부터 75% 위에 있는 값 · 즉, 상위 75%의 값을 의미 |
Max |
· 최댓값 |
NA's |
· NA(결측치)에 대한 개수를 확인할 수 있습니다. |
>
summary(s) |
> |
'Development > Big Data, R, ...' 카테고리의 다른 글
가설 검정의 오류 (0) | 2020.02.07 |
---|---|
유의수준(significance level; α), 귀무가설(H0)과 대립가설(H1)의 채택 (0) | 2020.02.07 |
강화 학습(RL; Reinforcement Learning) (0) | 2020.02.06 |
재현율(Recall) & 정밀도(Precision) 예시 (0) | 2020.02.06 |
집합(set) (0) | 2020.02.04 |