달력

12

« 2019/12 »


 

 

 

breast-cancer.arff

·         유방암 데이터

·         Breast cancer data.

 

·         데이터 세트에는 no-recurrence-events 클래스의 201 인스턴스와 recurrence-events 85 인스턴스가 포함되어 있습니다. 인스턴트들은 9가지 속성으로 설명되며, 일부는 선형데이터이고 일부는 명목형 데이터입니다.

·         This data set includes 201 instances of one class and 85 instances of another class. The instances are described by 9 attributes, some of which are linear and some are nominal.

 

 

 

attribute

description

type

age

{'10-19','20-29','30-39','40-49','50-59','60-69','70-79','80-89','90-99'}

Enum

menopause

{'lt40','ge40','premeno'}

Enum

tumor-size

{'0-4','5-9','10-14','15-19','20-24','25-29','30-34','35-39','40-44','45-49','50-54','55-59'}

Enum

inv-nodes

{'0-2','3-5','6-8','9-11','12-14','15-17','18-20','21-23','24-26','27-29','30-32','33-35','36-39'}

Enum

node-caps

{'yes','no'}

Enum

deg-malig

{'1','2','3'}

Enum

breast

{'left','right'}

Enum

breast-quad

{'left_up','left_low','right_up','right_low','central'}

Enum

irradiat

{'yes','no'}

Enum

Class

{'no-recurrence-events','recurrence-events'}

Enum

 

 

 


 

 

 


 


 


'Development > Java' 카테고리의 다른 글

supermarket.arff 데이터 셋  (0) 2019.12.08
M5P  (0) 2019.12.07
breast-cancer.arff  (0) 2019.12.06
OneR 수행단계  (0) 2019.12.05
베이지안 네트워크 w/ Java  (0) 2019.12.05
ARFF(Attribute-Relation File Format)  (0) 2019.12.04
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

 

 

 

1

1000 미만의 자연수에서 3의 배수와 5의 배수의 총합을 구하는 프로그램을 작성하시오.

 

 

result = 0

for n in range(1, 1000):

    if n % 3 == 0 or n % 5 == 0:

        result += n

print(result)

 

 

 

 

 

2

아래와 같은 패턴의 별(*)삼각형을 출력하는 프로그램을 작성해보세요.

*

**

***

****

*****

 

for i in range(5):

    for j in range(5):

        if j <= i:

            print('*', end='')

    print()

 

 

 

 

 

 

 

3

2~9 까지 구구단 출력하기

아래와 같이 구구단을 출력해 주세요

[8]

8 X 1 = 8

8 X 2 = 16

8 X 3 = 24

8 X 4 = 32

8 X 5 = 40

8 X 6 = 48

8 X 7 = 56

8 X 8 = 64

8 X 9 = 72

 

for x in range(2, 10):

    print("[" + str(x) + "]")

    for y in range(1, 10):

        print(x, "X", y, "=", x * y)

 

 

 

 

 


 

 

파이썬의 내장 자료형

·       파이썬은 자주 사용하는 자료구조를 내장하고 있습니다.

·       언어 내장의 기본 자료구조, , 내장 자료형을 제공하고 있어 편리하고 강력합니다.

·       파이썬의 내장 자료형에는 수치형, 문자열, 리스트, 튜플, 사전자료형이 있습니다.

·       리스트, 튜플, 사전자료형은 컨테이너(집합체 형태) 저장모델을 가지고 있으며 다양한 장점을 가지고 있습니다.

 

자료형

저장/접근방법

변경 유무

저장 모델

수치형

(Number)

Direct(직접)

Immutable(변경불가능)

Literal(리터럴)

문자열

(String)

Sequence(시퀀스)

Immutable(변경불가능)

Literal(리터럴)

리스트

(List)

Sequence(시퀀스)

Mutable(변경가능)

Container(컨테이너)

튜플

(Tuple)

Sequence(시퀀스)

Immutable(변경불가능)

Container(컨테이너)

사전

(Dictionary)

Mapping(매핑)

Mutable(변경가능)

Container(컨테이너)

https://codedragon.tistory.com/1779

https://codedragon.tistory.com/2213

https://codedragon.tistory.com/6620

https://codedragon.tistory.com/6600

https://codedragon.tistory.com/6621

https://codedragon.tistory.com/6622 

 


Posted by codedragon codedragon

댓글을 달아 주세요


 

 

결측치가 발생하는 이유

·       데이터 입력 중 실수로 값을 입력하지 않은 경우

·       값을 어떤 이유로든 관찰되지 못한 경우(예를 들어, 인구 조사에서 특정 가구가 소득을 기재하지 않은 경우)

·       해당 항목에 적절한 값이 없어서 값이 입력되지 않은 경우(예를 들어, 약품의 냄새를 기록하고 있는 칸에서 특정 약품은 향이 없는 경우)

 


Posted by codedragon codedragon

댓글을 달아 주세요


 

 

의사결정나무 분석과정

수행단계에서 분리기준, 정지규칙, 평가 기준 등을 어떻게 적용하느냐에 따라 서로 다른 의사결정 트리를 생성하게 됩니다.


단계

설명

1

변수 선택

·       목표변수와 관계가 있는 설명변수들을 선택합니다.

2

의사결정나무 생성 단계

 

·       분석의 목적과 자료구조에 따라 적절한 분리기준정지규칙을 지정하여 의사결정나무를 생성합니다.

·       훈련용 데이터를 이용하여 독립변수의 차원공간을 반복적으로 분할(반복적 분리 과정)하여 의사결정 나무를 생성하게 됩니다.

 

분리기준

·       분할 기준

·       의사결정 나무를 생성할 때 가지를 나누는 기준을 의미합니다.

·       부모마디보다 자식마디의 순수도(Purity)가 증가하도록 분류를 형성해 나갑니다.

정지규칙

·       의사결정 나무를 생성할 때 더 이상 가지를 만들지 않고 정지하는 규칙을 의미합니다.

 

3

가치치기 단계

 

·       부적절한 나뭇가지를 제거(가지치기)하는 단계

·       평가용 데이터를 이용하여 가지치기를 수행

 

·       의사결정나무에서 오차를 크게 할 위험이 높은 가지를 제거합니다.

·       부적절한 추론규칙을 가지고 있는 가지를 제거합니다.

·       불필요한 가지를 제거합니다.

·       분류오류를 크게 할 위험이 높은 가지를 제거하게 됩니다.

·       분류오류란 의사결정나무를 만들면 이를 이용하여 분류하게 되는데 이때 발생되는 오류를 의미하는 것입니다.

 

 

4

타당성 평가 단계

 

·       이익(gain), 위험(risk), 비용(cost)등을 고려하여 모형 평가하는 단계

·       이익표나 위험도표, 검증용 데이터(Test Data) 등을 이용하여 의사결정나무를 평가합니다.

·       교차 타당성(교차검증) 등을 이용하여 의사결정트리 평가합니다.

 

이익()

·       Gain Chart

·       생성된 의사결정나무를 이용하여 분류 경우 얻게 되는 성능에 따른 이익을 표시한 것을 의미합니다.

위험()

·       Risk Chart

·       생성된 의사결정나무를 이용하여 분류 경우 얻게 되는 성능에 따른 위험을 표시한 것을 의미합니다.

 

5

해석 및 예측 단계

 

·       분류(Classification) 예측(Prediction)

 

·       의사결정나무를 해석하고 예측 모형을 결정하게 됩니다

 

 

 

 




Posted by codedragon codedragon

댓글을 달아 주세요



 

 

 

통계학 분야의 알고리즘

통계학 분야에서는 카트(CART), 체이드(CHAID) 알고리즘이 개발되었습니다.

알고리즘

설명

카트(CART; Classification And Regression Trees)

의사결정 나무를 생성할 때 후보 나무들을 여러 개 생성하고 그 중에서 최적의 나무를 찾아내는 방법입니다.

체이드(CHAID; Chi-square Automatic Interaction Detection)

통계학의 카이제곱-검정 또는 F-검정을 이용하여 다지 분리(Multiway Split)를 수행하는 알고리즘입니다.

 

 


'Development > Big Data, R, ...' 카테고리의 다른 글

결측치가 발생하는 이유  (0) 2019.12.06
의사결정나무 분석과정  (0) 2019.12.06
통계학 분야의 알고리즘  (0) 2019.12.06
의사결정나무 분석 알고리즘  (0) 2019.12.06
의사결정나무분석 활용  (0) 2019.12.06
의사결정나무 분류  (0) 2019.12.06
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

의사결정나무 분석 알고리즘

의사결정나무 분석에는 인공지능, 기계학습 분야에서 개발된 ID3, C4.5, C4.8 C5.0 알고리즘들과 통계학 분야에서 개발된 카트(CART), 체이드(CHAID) 알고리즘으로 나눌 수 있습니다.

 

구분

알고리즘

인공지능, 기계학습 분야

·       ID3,

·       C4.5, C4.8,

·       C5.0

알고리즘들과 통계학 분야

·       카트(CART),

·       체이드(CHAID) 알고리즘

 

 


'Development > Big Data, R, ...' 카테고리의 다른 글

의사결정나무 분석과정  (0) 2019.12.06
통계학 분야의 알고리즘  (0) 2019.12.06
의사결정나무 분석 알고리즘  (0) 2019.12.06
의사결정나무분석 활용  (0) 2019.12.06
의사결정나무 분류  (0) 2019.12.06
가지치기(Pruning)  (0) 2019.12.06
Posted by codedragon codedragon

댓글을 달아 주세요



 

 

의사결정나무분석 활용

의사결정나무분석은 다양한 분야에서 활용되고 있습니다.

·       시장조사

·       광고조사

·       의학연구

·       품질관리

·       고객 타겟팅

·       고객들의 신용점수화

·       캠페인 반응분석

·       고객 행동예측

·       고객 세분화

·       사건사고 발생 예측

·       질병 발생 규칙

·      

 

 


'Development > Big Data, R, ...' 카테고리의 다른 글

통계학 분야의 알고리즘  (0) 2019.12.06
의사결정나무 분석 알고리즘  (0) 2019.12.06
의사결정나무분석 활용  (0) 2019.12.06
의사결정나무 분류  (0) 2019.12.06
가지치기(Pruning)  (0) 2019.12.06
확률 이해  (0) 2019.12.05
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

 

의사결정나무 분류

의사결정나무는 목표변수가 이산형인 경우와 연속형인 경우로 구분됩니다.

 

목표변수

의사결정나무

분류(기준)변수와 분류기준값의 선택 방법

이산형 경우

(범주형)

분류나무(Classification tree)

카이제곱 통계량(Chi-square statistic) p-value, 지니지수(Gini index), 엔트로피 지수(Entropy index)

연속형 경우

(연속형)

회귀나무(Regression tree)

F-통계량의 p-value, 분산의 감소량

 

 

 

 

Posted by codedragon codedragon

댓글을 달아 주세요

 

 

가지치기(Pruning)

끝마디가 너무 많으면 모형이 과대 적합된 상태로 현실문제에 적용할 있는 적절한 규칙이 나오지 않게됩니다. 따라서 분류된 관측치의 비율 또는 MSE(Mean Squared Error)등을 고려한 수준의 가지치기 규칙을 제공해야 합니다. , overfitting 막아주어야 합니다.

 

방법

설명

pre-pruning

tree 생성을 사전에 중단합니다.

post-pruning

데이터 포인트가 적은 node를 삭제하거나 병합합니다.

 


Posted by codedragon codedragon

댓글을 달아 주세요