CODEDRAGON ㆍDevelopment/Big Data, R, ...
R Code 예시 1
testDB.csv(헤더없음) 파일을 읽어서 헤더(id,name,score)를 생성하여 데이터 기본통계함수와 데이터 구조를 확인하는 R 코드 예시입니다.
#header=FALSE를 지정하여 헤더 없이 파일의 모든 데이터를 읽어옵니다.
#x <- read.csv("testDB.csv", header=F)
> x <- read.csv("testDB.csv", header=FALSE) |
> |
#기본은 첫 라인이 헤더로 처리됩니다. header=FALSE로 첫라인이 헤더로 처리안되도록 하였습니다.
> x |
> |
# --------------------------------------------------------
#names()함수를 사용해 별도로 컬럼 이름을 지정해 줍니다.
> names(x)
<- c("id", "name", "score") |
> |
# --------------------------------------------------------
# 데이터 기본통계함수 |
> |
# --------------------------------------------------------
#str(x) : 데이터의 각 열을 구성하는 자료형타입(자료의 mode)를 확인합니다.
> str(x) |
> |
# 읽어들인 파일은 데이터 프레임(data.frame)으로 반환됩니다.
#데이터를 읽어들인 결과를 보면 name 컬럼이 모두 팩터(Factor ) 형태로 변환되어져 있습니다.
# 이름(name)은 범주형 변수가 아니므로 문자열형태로 변환해주어야 합니다.
# --------------------------------------------------------
https://codedragon.tistory.com/9649
https://codedragon.tistory.com/9718
https://codedragon.tistory.com/666
https://codedragon.tistory.com/8746
R Code 예시 2
카이제곱 검정을 통하여 장난감 보유 현황과 만족도에 대해
귀무가설과 대립가설을 세우고 분석 예시
child별 장난감 보유 현황 (car, truck, doll)
No |
car |
truck |
doll |
child1 |
5 |
11 |
1 |
child2 |
4 |
7 |
3 |
귀무가설(H0)
child과 징난감 보유양은 독립이다.
검정방법
> child1 <-
c(5, 11, 1) Pearson's Chi-squared test data: Toy
|
> |
결론
p-value가 0.05(95%의 신뢰수준)보다 크므로 "H0: child과 징난감 보유양은 독립이다."라는 귀무가설을 기각할 수 없습니다.
통계량 χ2(X-squared)은 1.7258였으며
자유도(df; Degree of Freedom)는 child가 2개 레벨, 장난감 보유 현황이 3개 레벨이므로 (2-1)(3-1) = 2가 됩니다
child과 장난감 보유양의 데이터에 대한 독립성 검정에서 p-value는 0.4219 입니다. 이 값은 0.05보다 커서 주어진 분할표는 'child과 장난감 보유양이 상관관계가 없다'는 귀무가설을 기각할 충분한 증거가 되지 않습니다. 따라서 '성별과 운동은 상관관계가 없다'는 결론을 내리게 됩니다.
https://codedragon.tistory.com/9423
https://codedragon.tistory.com/9493
https://codedragon.tistory.com/6598
'Development > Big Data, R, ...' 카테고리의 다른 글
Hadoop - download for windows (0) | 2019.12.07 |
---|---|
과적합 발생 원인, 과적합을 해결하기 어려운 이유 (0) | 2019.12.07 |
결측치가 발생하는 이유 (0) | 2019.12.06 |
의사결정나무 분석과정 (0) | 2019.12.06 |
통계학 분야의 알고리즘 (0) | 2019.12.06 |