달력

7

« 2020/7 »

  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  •  




 

 

summary() 함수의 요약정보 해석

전반적인 기초 통계량을 보여주는 summary() 함수의 요약정보 해석하기

 

iris데이터에 대한 summary()함수의 실행결과입니다.

> summary(iris)
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width          Species 
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100   setosa    :50 
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300   versicolor:50 
 Median :5.800   Median :3.000   Median :4.350   Median :1.300   virginica :50 
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199                 
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800                 
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500
                 

>

 

Sepal.Length 컬럼과 같이 수치형 데이터에 대해서는 최솟값Min, 1사분위수1st Qu, 중앙값Median, 평균Mean, 3사분위수3rd Qu, 최댓값Max 보여줍니다.

팩터 데이터 Species 대해서는 레벨(수준)level마다 개의 값이 있는지를 보여줍니다.

 

분위수(Quantile) 데이터를 크기 순서로 늘어놓았을 25% 해당하는 값을 1사분위수, 50% 해당하는 값을 중앙값(median), 75% 해당하는 값을 3사분위수로 표시합니다.

컬럼

설명

min

·         최솟값

1st Qu

·         Lower Quartile

·         1 분위수 (25% 분위수)

·         컬럼 데이터를 오름차순으로 정렬하여 아래에서부터 25% 위에 있는

·         , 하위 25% 값을 의미

Median

·         중앙값(median) 중위수 2사분위수

·         데이터를 크기대로 정렬하였을 가장 가운데에 있는

·         컬럼 데이터를 오름차순으로 정렬하여 가운데에 있는

·         데이터의 수가 짝수이면 가장 가운데에 있는 수의 평균을 사용합니다.

Mean

·         평균값

3st Qu

·         Upper Quartile

·         3 분위수 (75% 분위수)

·         컬럼 데이터를 오름차순으로 정렬하여 아래에서부터 75% 위에 있는

·         , 상위 75% 값을 의미

Max

·         최댓값

NA's

·         NA(결측치) 대한 개수를 확인할 있습니다.

 

https://codedragon.tistory.com/9930

https://codedragon.tistory.com/666

 

 

 

 

 

 

 

 

cor()

데이터 집합 변수간의 상관 계수(Correlation Coefficient) 구해 주는 R함수입니다.

 

https://codedragon.tistory.com/9735

https://codedragon.tistory.com/9642

 


Posted by codedragon codedragon

댓글을 달아 주세요