CODEDRAGON ㆍDevelopment/Big Data, R, ...
R을 이용한 데이터 분석 실무
R for Practical Data Analysis
목차
제 1 장 서문 15
1 왜 R인가 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 이 책의 목적 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
제 2 장 R 시작하기 17
1 설치 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 도움말 보기 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3 IDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4 배치 실행 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5 패키지의 사용 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
제 3 장 데이터 타입 26
1 변수 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2 스칼라 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1 숫자 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 NA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3 NULL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.4 문자열 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5 진리값 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6 요인(Factor) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3 벡터(Vector) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1 벡터의 정의 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2 벡터내 데이터 접근 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3 벡터 연산 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4 seq . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.5 rep . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4
4 리스트(List) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.1 리스트의 정의 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2 리스트내 데이터 접근 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5 행렬(Matrix) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.1 행렬의 정의 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.2 행렬내 데이터 접근 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.3 행렬의 연산 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6 배열 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.1 배열 정의 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.2 배열 데이터 접근 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
7 데이터 프레임(Data Frame) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
7.1 데이터 프레임 정의 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
7.2 데이터 프레임 접근 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
8 타입 판별 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
9 타입 변환 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
제 4 장 제어문, 연산, 함수 53
1 IF, FOR, WHILE 문 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2 행렬 연산 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3 NA의 처리 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4 함수의 정의 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5 스코프(Scope) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6 벡터 연산 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
7 값에 의한 전달 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
8 객체의 불변성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
9 모듈(Module) 패턴 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
9.1 큐(Queue) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
9.2 큐(Queue) 모듈의 작성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
10 객체의 삭제 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
제 5 장 데이터 조작 I 72
1 iris 데이터 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
2 파일 입출력 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
2.1 CSV파일 입출력 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3 save(), load() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5
차 례
4 rbind(), cbind() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5 apply 함수들 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.1 apply() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.2 lapply() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.3 sapply() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.4 tapply . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.5 mapply() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
6 doBy 패키지 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
7 split() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
8 subset() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
9 merge() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
10 sort(), order() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
11 with(), within() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
12 attach(), detach() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
13 which(), which.max(), which.min() . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
14 aggregate() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
15 stack(), unstack() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
16 RMySQL 패키지 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
제 6 장 데이터 조작 II 109
1 sqldf 패키지 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
2 plyr 패키지 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
2.1 adply() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
2.2 ddply() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
2.3 transform(), summarise(), subset() . . . . . . . . . . . . . . . . . . . . . . . . 116
2.4 m*ply() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
3 reshape2 패키지 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
3.1 melt() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
3.2 dcast() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
4 data.table 패키지 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
4.1 데이터 테이블 생성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
4.2 데이터 접근과 그룹 연산 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
4.3 key를 사용한 탐색 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
4.4 key를 사용한 데이터 테이블 병합 . . . . . . . . . . . . . . . . . . . . . . . . . 135
4.5 참조를 사용한 데이터 수정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
6
4.6 rbindlist . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
5 foreach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
6 doMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
6.1 프로세스의 수 설정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
6.2 plyr의 .parallel 옵션 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
6.3 foreach에서 %dopar%의 사용 . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
7 테스팅과 디버깅 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
7.1 testthat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
7.2 test that을 사용한 테스트 그룹화 . . . . . . . . . . . . . . . . . . . . . . . . . 148
7.3 테스트 파일 구조 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
7.4 디버깅 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
8 코드 수행 시간 측정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
8.1 system.time()을 사용한 시간 측정 . . . . . . . . . . . . . . . . . . . . . . . . 158
8.2 Rprof()를 사용한 코드 프로파일링 . . . . . . . . . . . . . . . . . . . . . . . . 159
제 7 장 그래프 162
1 산점도 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
2 그래픽 옵션 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
2.1 축 이름(xlab, ylab) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
2.2 그래프 제목(main) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
2.3 점의 종류(pch) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
2.4 점의 크기(cex) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
2.5 색상(col) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
2.6 좌표축 값의 범위(xlim, ylim) . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
2.7 type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
3 그래프의 배열(mfrow) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
4 지터(jitter) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
5 점(points) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
6 선(lines) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
7 직선(abline) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
8 곡선(curve) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
9 다각형(polygon) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
10 문자열(text) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
11 그래프상에 그려진 데이터의 식별 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
12 범례(legend) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
7
차 례
13 행렬에 저장된 데이터 그리기(matplot, matlines, matpoints) . . . . . . . . . . . . . 188
14 상자 그림(boxplot) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
15 히스토그램(hist) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
16 밀도 그림(density) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
17 막대 그림(barplot) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
18 파이 그래프(pie) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
19 모자이크 플롯(mosaicplot) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
20 산점도 행렬(pairs) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
21 투시도(persp), 등고선 그래프(contour) . . . . . . . . . . . . . . . . . . . . . . . . . 206
제 8 장 통계 분석 210
1 난수 생성 및 분포 함수 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
2 기초 통계량 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
2.1 평균, 표본 분산, 표본 표준편차 . . . . . . . . . . . . . . . . . . . . . . . . . . 213
2.2 다섯 수치 요약 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
2.3 최빈값(mode) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
3 표본추출 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
3.1 단순 임의 추출(Random Sampling) . . . . . . . . . . . . . . . . . . . . . . . . 216
3.2 층화 임의 추출(Stratified Random Sampling) . . . . . . . . . . . . . . . . . . 216
3.3 계통 추출(Systematic Sampling) . . . . . . . . . . . . . . . . . . . . . . . . . 219
4 분할표(Contingency Table) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
4.1 분할표의 작성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
4.2 독립성 검정(Independence Test) . . . . . . . . . . . . . . . . . . . . . . . . . 223
4.3 피셔의 정확 검정(Fisher’s Exact Test) . . . . . . . . . . . . . . . . . . . . . . 225
4.4 맥니마 검정(McNemar Test) . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
5 적합도 검정(Goodness of Fit) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
5.1 Chi Square Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
5.2 Shapiro-Wilk Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
5.3 Kolmogorov-Smirnov Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
5.4 Q-Q Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
6 상관 계수 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
6.1 피어슨 상관계수(Pearson Correlation Coefficient) . . . . . . . . . . . . . . . . 235
6.2 스피어만 상관계수(Spearman’s Rank Correlation Coefficient) . . . . . . . . . 237
6.3 켄달의 순위 상관 계수(Kendal’s Rank Correlation Coefficient) . . . . . . . . 238
6.4 상관 계수 검정(Correlation Test) . . . . . . . . . . . . . . . . . . . . . . . . . 239
8
7 추정 및 검정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
7.1 일표본 평균 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
7.2 독립 이표본 평균 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
7.3 짝지은 이표본 평균 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
7.4 이표본 분산 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
7.5 일표본 비율 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250
7.6 이표본 비율 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
제 9 장 선형 회귀(Linear Regression) 254
1 단순 선형 회귀(Simple Linear Regression) . . . . . . . . . . . . . . . . . . . . . . . 254
1.1 모델 생성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
1.2 선형회귀 결과 추출 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
1.3 예측과 신뢰구간 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
1.4 모형 평가 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
1.5 ANOVA 및 모델간의 비교 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
1.6 모델 평가 차트 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
1.7 회귀 직선의 시각화 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
2 중선형회귀(Multiple Linear Regression) . . . . . . . . . . . . . . . . . . . . . . . . 267
2.1 모델 생성 및 평가 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
2.2 범주형 변수 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
2.3 중선형회귀모형의 시각화 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
2.4 표현식을 위한 I()의 사용 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
2.5 변수의 변환 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
2.6 상호 작용 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
3 이상치(outlier) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283
4 변수 선택 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
4.1 단계적 변수 선택 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
4.2 모든 경우에 대한 비교 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
제 10 장 분류 알고리즘(Classification Algorithms) 293
1 데이터 탐색 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
1.1 기술 통계 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
1.2 데이터 시각화 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296
2 전처리(Preprocessing) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
2.1 데이터 변환 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
9
차 례
2.2 결측값(NA)의 처리 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
2.3 변수 선택(Feature Selection) . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
3 모델 평가 방법 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
3.1 평가 메트릭(metric) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
3.2 ROC 커브 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
3.3 교차 검증(cross validation) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
4 로지스틱 회귀모형(Logistic Regression) . . . . . . . . . . . . . . . . . . . . . . . . 322
5 다항 로지스틱 회귀분석(Multinomial Logistic Regression) . . . . . . . . . . . . . . 326
6 나무 모형(Tree Models) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
6.1 rpart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
6.2 party::ctree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
6.3 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334
7 신경망(Neural Networks) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
7.1 Formula를 사용한 모델 생성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
7.2 X와 Y의 직접 지정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
8 SVM(Support Vector Machine) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
9 클래스 불균형(Class Imbalance) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
10 문서 분류(Document Classification) . . . . . . . . . . . . . . . . . . . . . . . . . . 350
10.1 코퍼스와 문서 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
10.2 문서 변환 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
10.3 문서의 행렬 표현 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352
10.4 문서 분류 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
10.5 파일로부터 Corpus 생성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
10.6 메타 데이터 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
참고 문헌 364
무료 버전 도서 다운받기
https://drive.google.com/file/d/0B_ss3O1d3bGxSnoxeV9YdWFfX1U/view?usp=sharing
or
'Development > Big Data, R, ...' 카테고리의 다른 글
UC Irvine Machine Learning Repository – 데이터 모음 (0) | 2015.09.07 |
---|---|
데이터과학 입문(Doing Data Science) (0) | 2015.09.01 |
R 함수 사용법 확인방법 (0) | 2015.08.22 |
CSV(Comma Separated Values)-텍스트 데이터 (0) | 2015.08.16 |
데이터 유형(data type) (0) | 2015.08.12 |