달력

7

« 2020/7 »

  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  •  



 

 

결측속성 삭제를 위한 결측률 찾기

 

 

 

Step by Step

·         데이터 불러오기

·         arff -> csv

·         Excel 통해 데이터 오픈

·         Excel 결측률 계산

 

 

 

 

데이터 불러오기

[Preprocess] >>

[Open file] 클릭

labor.arff


 

 

 

 

 

arff -> csv

데이터셋을 불러온 csv 형식을 변경하여 저장하기 위해 우측 상단의 [Save...] 버튼을 클릭합니다.


 

 

csv "Files of Type" 지정 >>

파일명 입력 >> [Save]

labor.csv


 

 

 

 

Excel 통해 데이터 오픈

 

labor.csv 파일을 오픈합니다.


 

 

 

 

 

 

Excel 결측률 계산

 



데이터갯수

결측건수

결측율

57

17

969

326

33.64%

=COUNTA(A2:A58)

=COUNTA(A1:Q1)

=B64*C64

=COUNTIF(A2:Q58, "?")

=E64/D64

 

 

데이터의 레코드 수는 57개이고 속성의 수는 17개입니다.

, 열의 수를 통해 원래 있어야 모든 데이터는 969개로 나옵니다.

 

원래  969개가 있어야 하지만 결측값이 326 존재합니다.

결측율을 계산해 보면 33.64% 나와서

이를 기준으로 해서 전체에서 결측률이 33%이상일 경우 해당 속성을 제거하도록 하겠습니다.

 

 

 


Posted by codedragon codedragon

댓글을 달아 주세요