달력

12

« 2019/12 »

  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  •  
  •  
  •  
  •  


 

 

노이지 인스턴스 (noisy instance)

·       인스턴스의 분포가 뒤섞여 있는 경우에 k-최근접 이웃을 통해 잘못된 분류를 방지할 수 있는 방법입니다.

·       노이지 인스턴스라고해서 잡음이 아니고, 약한 군집성을 띄는 군집내의 데이터 분석이 쉽도록 증폭해주는 역할을 합니다.

 

 

 


'Development > Java' 카테고리의 다른 글

Boundary Visualizer  (0) 2019.12.09
JavaBayes API(자바베이즈 API)  (0) 2019.12.09
노이지 인스턴스 (noisy instance)  (0) 2019.12.09
OpenMarkov  (0) 2019.12.09
WEKA IBk  (0) 2019.12.09
분석방법 로드맵  (0) 2019.12.09
Posted by codedragon codedragon

댓글을 달아 주세요

2019. 12. 9. 08:41

OpenMarkov Development/Java



 

 

OpenMarkov

오픈마르코프

오픈 소스 그래픽 모델링 도구

 

www.openmarkov.org


 

 

 

 

OpenMarkov - wiki

https://bitbucket.org/cisiad/org.openmarkov/wiki/Home



'Development > Java' 카테고리의 다른 글

JavaBayes API(자바베이즈 API)  (0) 2019.12.09
노이지 인스턴스 (noisy instance)  (0) 2019.12.09
OpenMarkov  (0) 2019.12.09
WEKA IBk  (0) 2019.12.09
분석방법 로드맵  (0) 2019.12.09
supermarket.arff 데이터 셋  (0) 2019.12.08
Posted by codedragon codedragon

댓글을 달아 주세요

2019. 12. 9. 08:20

WEKA IBk Development/Java

 

 

 

IBk

·         Instance Based paremeter k

·         IBk 분류분석은 k-means 군집분석과 유사합니다.

·         Weka GUI Explorer 실행하면 정분류율은 산출되지만 모델은 출력되지 않으며 노이지 데이터세트의 경우 k 적을수록 정분류율이 향상됩니다.

·         IBk NaiveBayes 처럼 모든 속성은 똑같이 중요하다고 가정하고 있습니다.

·         IBk 분석 성능이 느릴 있지만 좋은 기계학습법중 하나입니다.

 

·         IBk 훈련 인스턴스의 (n) k 무한대에 도달하고 k/n 0 수렴할때 오차는 최소화 됩니다. 결국 많은 양의 데이터세트와 값의 k 사용하면 이론적으로 분류정확도가 보장되게 됩니다.

 

 

Class IBk

http://weka.sourceforge.net/doc.dev/weka/classifiers/lazy/IBk.html

 

 


'Development > Java' 카테고리의 다른 글

노이지 인스턴스 (noisy instance)  (0) 2019.12.09
OpenMarkov  (0) 2019.12.09
WEKA IBk  (0) 2019.12.09
분석방법 로드맵  (0) 2019.12.09
supermarket.arff 데이터 셋  (0) 2019.12.08
M5P  (0) 2019.12.07
Posted by codedragon codedragon

댓글을 달아 주세요



 

 

분석방법 로드맵


 

 

 

 

 

 

 


 

 

 

 

 

단계

세부 단계

데이터 준비

 

·         데이터 수집

데이터 탐색

·         데이터시각화

데이터 전처리

·         데이터 필터링

·         차원 축소

·         판별 분석

지도 학습

·         분류 분석

·         예측 분석

분류 분석

·         퍼셉트론

·         로지스틱회귀

·         서포트벡터머신(SVM)

·         분류나무

·         렌덤포레스트(앙상블)

·         K-근접이웃기법

·         신경망

·         나이브베이즈분류기

·         앙상블

예측 분석

·         선형회귀

·         K-근접이웃기법

·         회귀나무

·         신경망

·         앙상블

딥러닝

·         합성공신경망(CNN)

·         순환신경망(RNN)

비지도학습

·         군집분석

·         연관규칙

·         텍스트마이닝

모델 평가

·         예측성능평가

·         모델의 평가와 선택

인사이트 도출

·         개념, 인식, 식견, 통찰 도출

모델 공유

·         모델 현업 사용

·         평가결과 공유

·         데이터 평가

·         서비스

 

 


'Development > Java' 카테고리의 다른 글

OpenMarkov  (0) 2019.12.09
WEKA IBk  (0) 2019.12.09
분석방법 로드맵  (0) 2019.12.09
supermarket.arff 데이터 셋  (0) 2019.12.08
M5P  (0) 2019.12.07
breast-cancer.arff  (0) 2019.12.06
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

 

supermarket.arff 데이터

·       고객이 백화점의 여러 매장에서 구매한 제품을 기록한 데이터입니다.

·       고객이 여러 매장에서 구매한 제품을 기록한 것으로 매장을 나타내는 변수들과 고객이 구매한 제품을 나타내는 변수, 그리고 총구매액의 크기를 나타내는 변수로 구성되어 있습니다.

·       매장에서 특정제품을 구매했을 경우, 't' 값을 가지고, 구매하지 않았을 경우 빈 값으로 표현되어 있습니다.

·       데이터는 4627건이 존재합니다.

 

 


 

 

C:\Program Files\Weka-3-8\data\supermarket.arff


 


 

 




'Development > Java' 카테고리의 다른 글

WEKA IBk  (0) 2019.12.09
분석방법 로드맵  (0) 2019.12.09
supermarket.arff 데이터 셋  (0) 2019.12.08
M5P  (0) 2019.12.07
breast-cancer.arff  (0) 2019.12.06
OneR 수행단계  (0) 2019.12.05
Posted by codedragon codedragon

댓글을 달아 주세요

2019. 12. 7. 04:06

M5P Development/Java


 

 

M5P

·         M5 pruned model tree

·         선형 모델 트리를 만드는 비선형 방법

·         회귀분석 의사결정나무분석 동시에 수행할 있는 분류 알고리즘입니다.

·         분류규칙은 노드간 분기조건으로 회귀식은 말단노드 조건으로 사용됩니다.

·         MP5 분류된 가장 하위의 leap 노드를  LM (Linear Model) 으로 표시해 줍니다.

 


'Development > Java' 카테고리의 다른 글

분석방법 로드맵  (0) 2019.12.09
supermarket.arff 데이터 셋  (0) 2019.12.08
M5P  (0) 2019.12.07
breast-cancer.arff  (0) 2019.12.06
OneR 수행단계  (0) 2019.12.05
베이지안 네트워크 w/ Java  (0) 2019.12.05
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

 

breast-cancer.arff

·         유방암 데이터

·         Breast cancer data.

 

·         데이터 세트에는 no-recurrence-events 클래스의 201 인스턴스와 recurrence-events 85 인스턴스가 포함되어 있습니다. 인스턴트들은 9가지 속성으로 설명되며, 일부는 선형데이터이고 일부는 명목형 데이터입니다.

·         This data set includes 201 instances of one class and 85 instances of another class. The instances are described by 9 attributes, some of which are linear and some are nominal.

 

 

 

attribute

description

type

age

{'10-19','20-29','30-39','40-49','50-59','60-69','70-79','80-89','90-99'}

Enum

menopause

{'lt40','ge40','premeno'}

Enum

tumor-size

{'0-4','5-9','10-14','15-19','20-24','25-29','30-34','35-39','40-44','45-49','50-54','55-59'}

Enum

inv-nodes

{'0-2','3-5','6-8','9-11','12-14','15-17','18-20','21-23','24-26','27-29','30-32','33-35','36-39'}

Enum

node-caps

{'yes','no'}

Enum

deg-malig

{'1','2','3'}

Enum

breast

{'left','right'}

Enum

breast-quad

{'left_up','left_low','right_up','right_low','central'}

Enum

irradiat

{'yes','no'}

Enum

Class

{'no-recurrence-events','recurrence-events'}

Enum

 

 

 


 

 

 


 


 


'Development > Java' 카테고리의 다른 글

supermarket.arff 데이터 셋  (0) 2019.12.08
M5P  (0) 2019.12.07
breast-cancer.arff  (0) 2019.12.06
OneR 수행단계  (0) 2019.12.05
베이지안 네트워크 w/ Java  (0) 2019.12.05
ARFF(Attribute-Relation File Format)  (0) 2019.12.04
Posted by codedragon codedragon

댓글을 달아 주세요

2019. 12. 5. 10:38

OneR 수행단계 Development/Java


 

 

OneR 수행단계

 

step

description

1

속성에 몇가지 규칙을 생성합니다.

2

속성값에 대해 각 class 의 빈도를 카운팅하는 규칙을 생성합니다.

3

가장 빈번한 class 를 찾고 규칙이 가장 빈번한 class 들이 속성값 조합에 지정합니다.

4

오류율을 계산합니다.

5

데이터셋트의 각 속성에 1~4 단계를 반복하고 오류율이 가장 작은 속성을 선택합니다.

 

 


'Development > Java' 카테고리의 다른 글

M5P  (0) 2019.12.07
breast-cancer.arff  (0) 2019.12.06
OneR 수행단계  (0) 2019.12.05
베이지안 네트워크 w/ Java  (0) 2019.12.05
ARFF(Attribute-Relation File Format)  (0) 2019.12.04
WEKA Applications  (0) 2019.12.04
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

 

베이지안 네트워크 w/ Java

웨카는 베이지안 네트워크를 만들어 실행할 수 있는 라이브러리를 지원하고, 학습을 위한 K2 알고리즘을 포함하고 있습니다.

웨카외에 GUI도구와 API를 사용할 수 있습니다. 

 

 

 

GUI Tool

오픈마르코프(OpenMarkov)와 웨카 같은 도구의 장점은 GUI(Graphical User Interface)를 지원하여 그래프를 만들고 확률을 지정할 있습니다.

구분

설명

오픈마르코프(OpenMarkov)

https://codedragon.tistory.com/9576

웨카(WEKA)

https://codedragon.tistory.com/2863

 

 

 

 

 

Java API

자바를 사용하므로 노드와 에지, 그리고 그 확률을 계산할 때 자바 API를 사용합니다.

구분

설명

Netica(네티카)

https://codedragon.tistory.com/9728

Jayes(제이즈)

https://codedragon.tistory.com/9715

JavaBayes API(자바베이즈 API)

https://codedragon.tistory.com/9459

 

 


'Development > Java' 카테고리의 다른 글

breast-cancer.arff  (0) 2019.12.06
OneR 수행단계  (0) 2019.12.05
베이지안 네트워크 w/ Java  (0) 2019.12.05
ARFF(Attribute-Relation File Format)  (0) 2019.12.04
WEKA Applications  (0) 2019.12.04
담당자별 머신러닝 수행 역할 w/ Weka  (0) 2019.12.04
Posted by codedragon codedragon

댓글을 달아 주세요



 

 

ARFF(Attribute-Relation File Format)

·       ARFF는 웨카(WEKA)에서 사용하는 파일 포맷입니다.

·       .arff 파일 확장자는 웨카(WEKA) 입력 형식을 따르는 데이터 파일임을 나타냅니다.

·       csv txt 파일도 불러와 arff 형식으로 변환할 있습니다.

·       데이터는 엑셀이나 데이터베이스테이블 처럼 2x2로 구성되어 있고, 가로행은 attribute(속성 또는 필드, 이하 속성으로 명명) / 세로열은 instance (데이터 값 들, 이하 인스턴스 로 명명) 라고 합니다.

·       weka 기본적으로 제일 오른쪽 마지막 속성목적변수(class)로 암묵적으로 인식하고, 그 외 속성은 이 class 를 알아내기 위한 분류 및 기계학습을 지도 학습하는데 사용됩니다.

 

 

 

 

arff 파일 구조

ARFF는 헤더 부분과 본문 부분으로 크게 나눌 수 있습니다.

 

구분

설명

헤더

데이터에 관련한 기본 정보를 정의하는 부분으로 데이터파일의 이름과 속성 이름을 정의하고 속성의 타입까지 정의할 수 있습니다.

본문

실제 데이터가 입력되는 부분으로 속성 명에서 정의된 속성의 실제 데이터 값을 행 단위로 입력합니다.

 

 


 

 

%

% 주석을 의미합니다.

데이터셋에 대한 정보를 제공합니다.

@relation

테이터셋 명칭

@attribute

속성목록

@data

데이터 구조

 

 

 


Posted by codedragon codedragon

댓글을 달아 주세요