CODEDRAGON ㆍDevelopment/Java
결측속성 삭제를 위한 결측률 찾기
Step by Step
· 데이터 불러오기
· arff -> csv
· Excel을 통해 데이터 오픈
· Excel로 결측률 계산
데이터 불러오기
[Preprocess] 탭 >>
[Open file…] 클릭
labor.arff
arff -> csv
데이터셋을 불러온 후 csv로 형식을 변경하여 저장하기 위해 우측 상단의 [Save...] 버튼을 클릭합니다.
csv로 "Files of Type" 지정 후 >>
파일명 입력 >> [Save]
labor.csv
Excel을 통해 데이터 오픈
labor.csv 파일을 오픈합니다.
Excel로 결측률 계산
열 |
행 |
총 데이터갯수 |
결측건수 |
결측율 |
57 |
17 |
969 |
326 |
33.64% |
=COUNTA(A2:A58) |
=COUNTA(A1:Q1) |
=B64*C64 |
=COUNTIF(A2:Q58, "?") |
=E64/D64 |
데이터의 레코드 수는 57개이고 속성의 수는 17개입니다.
행, 열의 수를 통해 원래 있어야 모든 데이터는 969개로 나옵니다.
원래 969개가 있어야 하지만 결측값이 326개 가 존재합니다.
결측율을 계산해 보면 33.64%로 나와서
이를 기준으로 해서 전체에서 결측률이 33%이상일 경우 해당 속성을 제거하도록 하겠습니다.
'Development > Java' 카테고리의 다른 글
Weka 에러 메시지 Cannot instantiate the type Instance, 해결방법 (0) | 2020.02.13 |
---|---|
인터페이스의 추상 메소드 구현시 TIP (0) | 2020.02.08 |
Error - java.io.FileNotFoundException: The system cannot find the file specified 해결방법 (0) | 2020.01.27 |
ThreadGroup(스레드 그룹) (0) | 2020.01.20 |
과적합 검증 (0) | 2020.01.13 |