범주형 데이터(Categorical), 클래스(class), 범주형 데이터 예, 범주형 데이터 분류

CODEDRAGON Development/Big Data, R, ...

반응형


 

 

범주형 데이터(Categorical)

·       카테고리(category) 범주형

·       데이터가 사전에 정해진 특정 유형으로만 분류되는 데이터를 뜻합니다.

·       카테고리값은 숫자 값과 달리 주로 기호로 표시되며 비연속적입니다.

·       차이점은 개의 데이터가 있을 이들의 크기나 가치, 혹은 순서를 비교할 있는가 없는가입니다. 카테고리값은 크기나 가치를 비교할 없습니다.

 

 

 

 

 

클래스(class)

일반적으로 카테고리값은 가질 있는 경우의 수가 제한되어 있습니다. 이러한 경우의 수를 '클래스(class)'라고 합니다.

클래스(class) 두가지 종류가 있습니다.

구분

설명

이진 클래스

(binary class)

동전을 던진 결과와 같이 "앞면(head)" 혹은 "뒷면(tail)"처럼 가지 경우만 가능

다중 클래스

(multi class)

이상의 경우가 가능

 

 

 

 

 

범주형 데이터

·       스팸 메일 or 정상 메일

·       부도가 것이다 or 아니다

·       "A", "B", "C", "D", "F"와 같은 학점

·       방의 크기를 "", "," "" 나누어 기재하고 있을 특정 방의 크기를 ‘대’라고 적는다면 값은 범주형 데이터가 됩니다.

 

 

 

 

범주형 데이터 분류

범주형 데이터는 다시 명목형과 순서형으로 구분됩니다.

 

구분

설명

명목형 데이터(Nominal)

·       값들 간에 크기 비교가 불가능한 경우를 뜻합니다.

 

·       정치적 성향을 좌파, 우파로 구분하여 저장한 데이터

·       남성(Male) 여성(Female) 데이터

순서형 데이터(Ordinal)

·       카테고리값처럼 비연속적이지만 숫자처럼 비교 가능한 경우을 뜻합니다.

 

·       "", "," "" 같이 값에 순서를 있는 경우를 뜻합니다.

·       예를 들어 학점을 "A", "B", "C", "D", "F" 같이 주는 경우는 비연속적이고 기호로 표시되지만, 크기 혹은 순서를 비교할 있다. 이러한 경우는 분석의 목표에 따라 숫자로 표기하기도 하고 일반적인 카테고리값으로 표기하기도 한다.