1.Summary - 1.빅데이터 분석시스템 설계하기

1.Summary - 1.빅데이터 분석시스템 설계하기

CODEDRAGON ㆍDevelopment/AI

R Code 예시 1

testDB.csv(헤더없음) 파일을 읽어서 헤더(id,name,score)를 생성하여 데이터 기본통계함수와 데이터 구조를 확인하는 R 코드 예시입니다.

#header=FALSE를 지정하여 헤더 없이 파일의 모든 데이터를 읽어옵니다.

#x <- read.csv("testDB.csv", header=F)

> x <- read.csv("testDB.csv", header=FALSE)

#기본은 첫 라인이 헤더로 처리됩니다. header=FALSE로 첫라인이 헤더로 처리안되도록 하였습니다.

> x
V1 V2 V3
1 1 codedragon 95
2 2 bufferfly 97
3 3 unicorn 92

# --------------------------------------------------------

#names()함수를 사용해 별도로 컬럼 이름을 지정해 줍니다.

> names(x) <- c("id", "name", "score")
> x
id       name score
1 1 codedragon    95
2 2 bufferfly    97
3 3    unicorn    92

# --------------------------------------------------------

# 데이터 기본통계함수
> summary(x)
       id              name       score
Min.   :2.00   bufferfly:1   Min.   :92.00
1st Qu.:2.25   unicorn :1   1st Qu.:93.25
Median :2.50                 Median :94.50
Mean   :2.50                 Mean   :94.50
3rd Qu.:2.75                 3rd Qu.:95.75
Max.   :3.00                 Max.   :97.00

# --------------------------------------------------------

#str(x) : 데이터의 각 열을 구성하는 자료형타입(자료의 mode)를 확인합니다.

> str(x)
'data.frame': 3 obs. of 3 variables:
$ id : int 1 2 3
$ name : Factor w/ 3 levels "bufferfly","codedragon",..: 2 1 3
$ score: int 95 97 92

# 읽어들인 파일은 데이터 프레임(data.frame)으로 반환됩니다.

#데이터를 읽어들인 결과를 보면 name 컬럼이 모두 팩터(Factor ) 형태로 변환되어져 있습니다.

# 이름(name)은 범주형 변수가 아니므로 문자열형태로 변환해주어야 합니다.

# --------------------------------------------------------

https://codedragon.tistory.com/9649

https://codedragon.tistory.com/9718

https://codedragon.tistory.com/666

https://codedragon.tistory.com/8746

R Code 예시 2

카이제곱 검정을 통하여 장난감 보유 현황과 만족도에 대해

귀무가설과 대립가설을 세우고 분석 예시

child별 장난감 보유 현황 (car, truck, doll)

No	car	truck	doll
child1	5	11	1
child2	4	7	3

귀무가설(H0)

child과 징난감 보유양은 독립이다.

검정방법

> child1 <- c(5, 11, 1)
> child2 <- c(4, 7, 3)
> Toy <- cbind(child1, child2)
> rownames(Toy) <- c("car", "truck", "doll")
> chisq.test(Toy)

Pearson's Chi-squared test

data: Toy
X-squared = 1.7258, df = 2, p-value = 0.4219

결론

p-value가 0.05(95%의 신뢰수준)보다 크므로 "H₀: child과 징난감 보유양은 독립이다."라는 귀무가설을 기각할 수 없습니다.

통계량 χ²(X-squared)은 1.7258였으며

자유도(df; Degree of Freedom)는 child가 2개 레벨, 장난감 보유 현황이 3개 레벨이므로 (2-1)(3-1) = 2가 됩니다

child과 장난감 보유양의 데이터에 대한 독립성 검정에서 p-value는 0.4219 입니다. 이 값은 0.05보다 커서 주어진 분할표는 'child과 장난감 보유양이 상관관계가 없다'는 귀무가설을 기각할 충분한 증거가 되지 않습니다. 따라서 '성별과 운동은 상관관계가 없다'는 결론을 내리게 됩니다.

https://codedragon.tistory.com/9423

https://codedragon.tistory.com/9493

https://codedragon.tistory.com/6598

728x90

저작자표시 비영리 (새창열림)

'Development > AI' 카테고리의 다른 글

Hadoop - download for windows (0)	2019.12.07
과적합 발생 원인, 과적합을 해결하기 어려운 이유 (0)	2019.12.07
결측치가 발생하는 이유 (0)	2019.12.06
의사결정나무 분석과정 (0)	2019.12.06
통계학 분야의 알고리즘 (0)	2019.12.06

CodeDragon

CodeDragon

태그

최근글

댓글

공지사항

아카이브

'Development > AI' 카테고리의 다른 글

관련글

티스토리툴바