CODEDRAGON ㆍDevelopment/Big Data, R, ...
IRIS 데이터 셋
· IRIS 데이터 셋은 우리나라에서 붓꽃(IRIS)으로 해석되는 데이터입니다.
· 아이리스는 통계학자인 피셔(Fisher) 가 공개한 데이터입니다.
· 머신러닝과 통계 분야에서 오래전부터 사용해온 데이터 셋입니다.
· 붓꽃들은 Iris setosa(세토사), Iris virginica(버지니카), Iris versicolor(베르시칼라) 세 가지 종류가 있으며 이 붓꽃을 분류한 데이터입니다.
· 붓꽃들은 꽃받침과 꽃잎의 비율로 품종을 구분하기 때문에 연구 끝에 꽃잎의 각 부분의 너비와 길이 등을 측정하여 데이터로 만들었으며 150개의 레코드로 구성되어 있습니다.
· 붓꽃에 따라 꽃받침인 sepal의 길이와 너비, 그리고 꽃잎인 petal의 길이와 너비 값을 기록한 데이터로 이 데이터를 분석하면 어떤 붓꽃이 꽃받침(sepal)과 꽃잎(petal)의 길이와 너비 관점에서 어떤 차이를 가지는지에 대한 유용한 지식을 얻을 수 있습니다.
· 기계 학습에서 인기 있는 분야 중 하나인 분류(Classification)에 적합한 데이터입니다. 붓꽃 크기를 이용하여 붓꽃의 종을 측정하는 예측(prediction) 문제로 활용됩니다.
Iris flower data set - Wiki
https://en.wikipedia.org/wiki/Iris_flower_data_set
http://bit.ly/2shwE8h
'Development > Big Data, R, ...' 카테고리의 다른 글
NA(Not Available) (0) | 2019.12.12 |
---|---|
3.Summary - 3.빅데이터 수집·변환 모듈 개발하기 (0) | 2019.12.12 |
연관 규칙 적용 예시, 지지도, 신뢰도, 향상도 해석 (0) | 2019.12.11 |
연관규칙 측정지표 해석 (0) | 2019.12.11 |
향상도(lift), 향상도 값에 따른 관계와 의미 (0) | 2019.12.11 |