달력

11

« 2019/11 »

  •  
  •  
  •  
  •  
  •  
  • 1
  • 2
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30


 

 


IRIS.ARFF 데이터

웨카(WEKA) 설치 시 데이터 디렉토리에 설치되어 있는 아이리스 데이터셋입니다.

 

 

 

 

 

 

IRIS.ARFF 데이터   파일

C:\Program Files\Weka-3-8\data\iris.arff


 

 

 

 

 

 

IRIS.ARFF 데이터 셋의 헤더 부분 정보


 

속성

설명

Sepal Length

꽃받침의 길이에 대한 정보입니다.

Sepal Width

꽃받침의 너비에 대한 정보입니다.

Petal Length

꽃잎의 길이 정보입니다.

Petal Width

꽃잎의 너비에 대한 정보입니다.

Class

꽃의 종류 정보인데 Setosa / Versicolor / Virginica 3종류로 구분되며 이는 곧 같은 세가지 종류의 붓꽃으로 분류된 데이터 결과를 보여주는 것입니다.

 

 

@RELATION

@RELATION "이름"

·       데이터 셋은 @RELATION으로 선언합니다.

·       문자열로 데이터 셋의 이름을 명시하는데 이는 'iris' 정의되어 있습니다.

@attribute

@attribute [attribute-name] [datatype]

·       속성은 @attribute 선언하여 속성이름을 나타내는 문자열, 데이터 유형을 지정합니다.

·       REAL은 실수형 속성으로 정의하고, 속성 class Iris-setosa, Iris-versicolor, Iris-viginica 라는 3개의 값을 가지는 속성으로 정의되어 있습니다.

 

@RELATION iris

 

@ATTRIBUTE sepallength        REAL

@ATTRIBUTE sepalwidth         REAL

@ATTRIBUTE petallength         REAL

@ATTRIBUTE petalwidth        REAL

@ATTRIBUTE class         {Iris-setosa,Iris-versicolor,Iris-virginica}

 

 

 

 

 

 

IRIS.ARFF 데이터 셋의 본문 부분 정보

·       본문 부분은 @DATA로 시작합니다.

·       각 라인은 데이터의 행을 나타내는 레코드를 의미합니다.

·       데이터 속성의 값들은 헤더에  정의된 속성 정의 순서를 따르게 됩니다.

 

@DATA

5.1,3.5,1.4,0.2,Iris-setosa

4.9,3.0,1.4,0.2,Iris-setosa

4.7,3.2,1.3,0.2,Iris-setosa

4.6,3.1,1.5,0.2,Iris-setosa

5.0,3.6,1.4,0.2,Iris-setosa

5.4,3.9,1.7,0.4,Iris-setosa

4.6,3.4,1.4,0.3,Iris-setosa

5.0,3.4,1.5,0.2,Iris-setosa

4.4,2.9,1.4,0.2,Iris-setosa

4.9,3.1,1.5,0.1,Iris-setosa

5.4,3.7,1.5,0.2,Iris-setosa

 

 


Posted by codedragon codedragon

댓글을 달아 주세요


 

 

 

클래스 정의

·         "class 클래스명" 사용하여 정의합니다.

·         데이터와 데이터를 변형하는 함수를 같은 공간에 작성하게 됩니다.

·         클래스 내부에 선언된 변수와 메서드는 모두 현재 객체의 attribute(속성) 이라고 합니다.

·         다른 OOP 언어와 달리 파이썬은 Dynamic Language로서 새로운 attribute 동적으로 추가 있고, 메서드도 일종의 메서드 객체 취급하여 attribute 포함하고 있습니다.

 

 

 

class 클래스명: #헤더(Header)

 #몸체(Body)

    멤버변수

    def 멤버메소드명(인자):

        메소드 내용

 

 

 

 

 

 

클래스 생성

클래스 멤버를 정의하지 않은 가장 간단한 클래스

class MyClass:

    pass

 

 

 

 

 


'Development > Python' 카테고리의 다른 글

클래스 정의  (0) 08:00:22
dtype  (0) 2019.11.15
AttributeError: module 'xxx' has no attribute 'xxx'  (0) 2019.11.14
2002년 한일월드컵 기간의 기온 공공데이터 가져오기  (0) 2019.11.14
행/열 합계 - sum()  (0) 2019.11.13
교환 법칙과 분배 법칙  (0) 2019.11.12
Posted by codedragon codedragon

댓글을 달아 주세요

 


 

랜덤포레스트(Random forest)

·         분산이 의사결정나무의 단점을 통계적 기법으로 극복한 방법입니다.

·         여러 개의 의사결정 나무를 만들고, 각각의 나무에, 부트스트랩을 이용해 생성한 데이터셋으로 모델을 구성합니다. 편향을 증가시킴으로써, 분산이 의사결정나무의 단점을 완화시킵니다.

·         배깅에 랜덤 과정을 추가 방법입니다. (bagging + random)

·         배깅(bagging) 개념과 feature(또는 변수) 임의 선택(Random selection) 결합한 앙상블 기법(ensemble)입니다.

·         자료로부터 부트스트랩 샘플을 추출하고, 부트스트랩 샘플에 대해 트리를 형성해 나가는 과정은 배깅과 유사하나, 노드마다 모든 예측변수안에서 최적의 분할(split) 선택하는 방법 대신 예측변수들을 임의로 추출하고, 추출된 변수 내에서 최적의 분할을 만들어 나가는 방법을 사용합니다.

 

http://bit.ly/2nLKIVt

https://en.wikipedia.org/wiki/Random_forest

 

 

 


'Development > Big Data, R, ...' 카테고리의 다른 글

랜덤포레스트(Random forest)  (0) 07:59:10
선형 회귀(Linear Regression)  (0) 2019.11.16
나이브베이즈 특징  (0) 2019.11.16
원-핫 인코딩(one-hot encoding)  (0) 2019.11.15
맛있는 수박/커피 고르기  (0) 2019.11.15
분류 분석 모형  (0) 2019.11.14
Posted by codedragon codedragon

댓글을 달아 주세요