1.Summary - 1.빅데이터 분석시스템 설계하기

CODEDRAGON Development/Big Data, R, ...

반응형



 

 

R Code 예시 1

testDB.csv(헤더없음) 파일을 읽어서 헤더(id,name,score) 생성하여 데이터 기본통계함수와 데이터 구조를 확인하는 R 코드 예시입니다.

 

 

 

#header=FALSE 지정하여 헤더 없이 파일의 모든 데이터를 읽어옵니다.

#x <- read.csv("testDB.csv", header=F)

> x <- read.csv("testDB.csv", header=FALSE)

>

 

 

#기본은 첫 라인이 헤더로 처리됩니다. header=FALSE로 첫라인이 헤더로 처리안되도록 하였습니다.

> x
  V1         V2 V3
1  1 codedragon 95
2  2  bufferfly 97
3  3    unicorn 92

>

 

# --------------------------------------------------------

 

#names()함수를 사용해 별도로 컬럼 이름을 지정해 줍니다.

> names(x) <- c("id", "name", "score")
> x
  id       name score
1  1 codedragon    95
2  2  bufferfly    97
3  3    unicorn    92

>

 

 

 

# --------------------------------------------------------

 

 

 

# 데이터 기본통계함수
>
summary(x)
       id              name       score     
 Min.   :2.00   bufferfly:1   Min.   :92.00 
 1st Qu.:2.25   unicorn  :1   1st Qu.:93.25 
 Median :2.50                 Median :94.50 
 Mean   :2.50                 Mean   :94.50 
 3rd Qu.:2.75                 3rd Qu.:95.75 
 Max.   :3.00                 Max.   :97.00 

>

 

# --------------------------------------------------------

 

 

#str(x) : 데이터의 열을 구성하는 자료형타입(자료의 mode) 확인합니다.

 

> str(x)
'data.frame':        3 obs. of  3 variables:
 $ id   : int  1 2 3
 $ name : Factor w/ 3 levels "bufferfly","codedragon",..: 2 1 3
 $ score: int  95 97 92

>

# 읽어들인 파일은 데이터 프레임(data.frame)으로 반환됩니다.

#데이터를 읽어들인 결과를 보면 name 컬럼이 모두 팩터(Factor ) 형태로 변환되어져 있습니다.

# 이름(name) 범주형 변수가 아니므로 문자열형태로 변환해주어야 합니다.

# --------------------------------------------------------

 


https://codedragon.tistory.com/9649

https://codedragon.tistory.com/9718

https://codedragon.tistory.com/666

https://codedragon.tistory.com/8746

 

 

 

 

 

 

 

R Code 예시 2

카이제곱 검정을 통하여 장난감 보유 현황과 만족도에 대해

귀무가설과 대립가설을 세우고 분석 예시

 

 

child 장난감 보유 현황 (car, truck, doll)

No

car

truck

doll

child1

5

11

1

child2

4

7

3

 


 

 

귀무가설(H0)

child징난감 보유양은 독립이다.

 

 

 

검정방법

> child1 <- c(5, 11, 1)
> child2 <- c(4, 7, 3)
> Toy <- cbind(child1, child2)
> rownames(Toy) <- c("car", "truck", "doll")
> chisq.test(Toy)

Pearson's Chi-squared test

data:  Toy
X-squared = 1.7258, df = 2,
p-value = 0.4219

 

>

 

 

결론

p-value 0.05(95% 신뢰수준)보다 크므로 "H0: child 징난감 보유양은 독립이다."라는 귀무가설을 기각할 없습니다.

통계량 χ2(X-squared) 1.7258였으며

자유도(df; Degree of Freedom) child 2 레벨, 장난감 보유 현황이 3 레벨이므로 (2-1)(3-1) = 2 됩니다

 

child 장난감 보유양의 데이터에 대한 독립성 검정에서 p-value 0.4219 입니다. 값은 0.05보다 커서 주어진 분할표는 'child 장난감 보유양이 상관관계가 없다' 귀무가설을 기각할 충분한 증거가 되지 않습니다. 따라서 '성별과 운동은 상관관계가 없다' 결론을 내리게 됩니다.

 

 

https://codedragon.tistory.com/9423

https://codedragon.tistory.com/9493

https://codedragon.tistory.com/6598