Development/AI(891)
-
해당 레코드 모두 삭제
해당 레코드 모두 삭제 · 일반적인 결측값 처리 방식은 해당 레코드를 모두 삭제하는 방법입니다. · 전체적으로 결측값이 많은 레코드에 걸쳐 분포하면 너무 많은 자료가 삭제돼 정보를 획득하기 어려워질 수 있습니다. · {stats}패키지의 complete.cases()함수를 이용하여 결측값이 포함된 관측치를 삭제할 수 있습니다. '몸무게' 항목에 값이 없는 '도레미' 레코드를 삭제합니다. 이름 나이 키 몸무게 헌혈횟수 홍길동 39 160cm 50kg 2 도레미 27 175cm NA 7 이순신 25 185cm 72kg 10 후
-
결측값 처리방법
결측값 처리방법 NA 값의 처리를 분류 알고리즘에서 지원하지 않는다면 해당 데이터를 제외하고 모델링 및 예측을 수행하거나, NA 값을 다른 값으로 대체해야 합니다. · 해당 레코드 모두 삭제 · 결측값 대체(Missing Value Imputation)
-
NA(Not Available)
NA(Not Available) · "데이터 값이 없음", 즉 값이 빠져 있는 경우를 나타냅니다. · 값이 기록되지 않았거나 관측되지 않은 경우 데이터에 저장되는 값을 뜻합니다. · 결측치 ≒ 결측값은 대문자 'NA'로 표시합니다. ex) 택배 배송 정보를 수집한 데이터에서 날짜가 없는 경우
-
3.Summary - 3.빅데이터 수집·변환 모듈 개발하기
내·외부 데이터의 수집 방법
-
IRIS 데이터 셋
IRIS 데이터 셋 · IRIS 데이터 셋은 우리나라에서 붓꽃(IRIS)으로 해석되는 데이터입니다. · 아이리스는 통계학자인 피셔(Fisher) 가 공개한 데이터입니다. · 머신러닝과 통계 분야에서 오래전부터 사용해온 데이터 셋입니다. · 붓꽃들은 Iris setosa(세토사), Iris virginica(버지니카), Iris versicolor(베르시칼라) 세 가지 종류가 있으며 이 붓꽃을 분류한 데이터입니다. · 붓꽃들은 꽃받침과 꽃잎의 비율로 품종을 구분하기 때문에 연구 끝에 꽃잎의 각 부분의 너비와 길이 등을 측정하여 데이터로 만들었으며 150개의 레코드로 구성되어 있습니다. · 붓꽃에 따라 꽃받침인 sepal의 길이와 너비, 그리고 꽃잎인 petal의 길이와 너비 값을 기록한 데이터로 이 데이터..
-
연관 규칙 적용 예시, 지지도, 신뢰도, 향상도 해석
연관 규칙 적용 예시 상품 거래 데이터를 통해 연관성 규칙을 통한 지지도, 신뢰도, 향상도를 구합니다. 상품 거래 데이터에서 {딸기, 오이}산 사람들이 {토마토}를 살 확률이 있는 지 분석합니다. [상품 거래 데이터]