CODEDRAGON ㆍDevelopment/AI
범주형 데이터(Categorical)
· ≒ 카테고리(category)값 ≒ 범주형 값
· 데이터가 사전에 정해진 특정 유형으로만 분류되는 데이터를 뜻합니다.
· 카테고리값은 숫자 값과 달리 주로 기호로 표시되며 비연속적입니다.
· 큰 차이점은 두 개의 데이터가 있을 때 이들의 크기나 가치, 혹은 순서를 비교할 수 있는가 없는가입니다. 카테고리값은 크기나 가치를 비교할 수 없습니다.
클래스(class)
일반적으로 카테고리값은 가질 수 있는 경우의 수가 제한되어 있습니다. 이러한 경우의 수를 '클래스(class)'라고 합니다.
클래스(class)는 두가지 종류가 있습니다.
구분 |
설명 |
이진 클래스 (binary class) |
동전을 던진 결과와 같이 "앞면(head)" 혹은 "뒷면(tail)"처럼 두 가지 경우만 가능 |
다중 클래스 (multi class) |
세 개 이상의 경우가 가능 |
범주형 데이터 예
· 스팸 메일 or 정상 메일
· 부도가 날 것이다 or 아니다
· "A", "B", "C", "D", "F"와 같은 학점
· 방의 크기를 "대", "중," "소"로 나누어 기재하고 있을 때 특정 방의 크기를 ‘대’라고 적는다면 이 값은 범주형 데이터가 됩니다.
범주형 데이터 분류
범주형 데이터는 또 다시 명목형과 순서형으로 구분됩니다.
구분 |
설명 |
명목형 데이터(Nominal) |
· 값들 간에 크기 비교가 불가능한 경우를 뜻합니다.
· 정치적 성향을 좌파, 우파로 구분하여 저장한 데이터 · 남성(Male)과 여성(Female) 데이터 값 |
순서형 데이터(Ordinal) |
· 카테고리값처럼 비연속적이지만 숫자처럼 비교 가능한 경우을 뜻합니다.
· "대", "중," "소"와 같이 값에 순서를 둘 수 있는 경우를 뜻합니다. · 예를 들어 학점을 "A", "B", "C", "D", "F"와 같이 주는 경우는 비연속적이고 기호로 표시되지만, 크기 혹은 순서를 비교할 수 있다. 이러한 경우는 분석의 목표에 따라 숫자로 표기하기도 하고 일반적인 카테고리값으로 표기하기도 한다.
|
'Development > AI' 카테고리의 다른 글
McKinsey, Big data: The next frontier for innovation, competition, and productivity (0) | 2018.07.13 |
---|---|
smoothiecharts (0) | 2018.07.12 |
빅데이터 시대의 데이터 자원 확보와 품질 관리 방안 (0) | 2018.07.10 |
RColorBrewer: Package 패키지 설치하기, 패키지 임포트 (0) | 2018.07.09 |
종속변수 vs 독립변수 (0) | 2018.07.08 |