달력

12

« 2019/12 »


 

확률 이해

 

 


 

바구니의 3마리의 아기개, 고양이가 있습니다.

바구니에서 한마리를 꺼낼 개일 확률과 고양이일 확률은 다음과 같습니다.

 

P(dog) = 2/3

P(cat) = 1/3

 

 


Posted by codedragon codedragon

댓글을 달아 주세요

2019. 12. 5. 10:38

OneR 수행단계 Development/Java


 

 

OneR 수행단계

 

step

description

1

속성에 몇가지 규칙을 생성합니다.

2

속성값에 대해 각 class 의 빈도를 카운팅하는 규칙을 생성합니다.

3

가장 빈번한 class 를 찾고 규칙이 가장 빈번한 class 들이 속성값 조합에 지정합니다.

4

오류율을 계산합니다.

5

데이터셋트의 각 속성에 1~4 단계를 반복하고 오류율이 가장 작은 속성을 선택합니다.

 

 


'Development > Java' 카테고리의 다른 글

M5P  (0) 2019.12.07
breast-cancer.arff  (0) 2019.12.06
OneR 수행단계  (0) 2019.12.05
베이지안 네트워크 w/ Java  (0) 2019.12.05
ARFF(Attribute-Relation File Format)  (0) 2019.12.04
WEKA Applications  (0) 2019.12.04
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

교차검증(Cross-validation)방법

·         교차 유효성 검사 교차 평가 교차 타당성(검증) 교차 타당화

·         1~n개의 데이터를 랜덤(무작위)하게 n등분하여, 데이터를 Training/Validation으로 나눈 다음 교차하여 확인하는 방법입니다.

·         주어진 데이터의 일부를 학습시켜 모델을 생성하고, 나머지 일부(비학습 데이터) 모델을 검증하는 사용하는 방법입니다.

·         연구 결과에 대한 타당성을 해당 연구에 사용하지 않은 표본(sample)으로 평가해보는 타당화 방법을 지칭합니다.

·         교차빈도에 대한 통계적 유의성을 검증해 주는 통계분석 기법입니다.

·         2 또는 이상의 범주 변인들에 근거한 케이스들의 중복된 빈도 분포를 생산하는 과정에서 적용되는 통계기법입니다.

·         명목이나 서열수준과 같은 범주형 수준의 변인들에 대한 케이스들의 교차빈도에 대한 기술통계량을 제공합니다.

·         범주 변인 관계가 상호 독립 관계인지 혹은 상호 연관성을 맺고 있는지를 검증하는 방법입니다.

·         데이터가 충분하지 못한 경우에는 교차 평가를 시행합니다.

·         데이터 추출시 문제들을 개선하는 가지 방법이 교차 검증입니다.

·         교차 검증은 훈련 데이터와 테스트 데이터를 분리하여 모델을 만드는 방법 가장 자주 사용하는 기법입니다.

·         데이터를 동일한 크기로 분류 , 하나를 검증 데이터로 쓰고 나머지를 학습 데이터로 활용하여 훈련과 테스트를 반복하는 기법입니다.

·         교차검증은 주어진 데이터를 가지고 반복적으로 성과를 측정하여 결과를 평균한 으로 분류 분석모형을 평가하는 방법입니다.

·         train set 일부를 train 목적으로 사용하고 나머지를 validation 용도로 사용합니다. 그리고 train 목적과 validation 용도의 비율을 변경해가면서 반복 수행하여 오차율을 줄여나가는 방법입니다.

·         대표적인 기법인 k-fold 교차검증이 있습니다.

 

https://en.wikipedia.org/wiki/Cross-validation_(statistics)

 

 

 

 

부분 훈련 집합(Subtraining Set)에서 적합하고, 부분 시험 집합(Subtest Set)에서 검증하는 방식을 반복 수행합니다.


 

 

 

 

 

Posted by codedragon codedragon

댓글을 달아 주세요



 

 


d3js

·       D3*Data Driven Documents)의 약어

·       자바스크립트 라이브러리를 이용한 데이터 시각화 도구입니다.

·       스탠포드 비주얼라이제이션 그룹(Stanford Visualization Group)에서 2011년 발표한 자바스크립트 라이브러리입니다.

 

·       단순 배열 데이터, TSV, CSV, JSON, HTML, XML, TEXT등의 다양한 파일을 사용할 있습니다.

·       다양한 종류의 그래프와 트리 차트를 샘플과 함께 제공합니다.

·       오픈 소스 시각화 라이브러리인 프로토비즈(Protovis)에 애니메이션과 인터랙션 기능을 강화하여 시각화 기능을 향상한 라이브러리이다. D3 HTML5, SVG CSS를 사용하여 웹 표준의 인터렉티브한 데이터 시각화 기능을 제공한다. 모든 시각화 요소는 HTML 문서의 SVG 객체로 표현되며, 자바스트립트를 통해 시각화 객체를 생성/조작하고, CSS를 통해 시각화 객체의 레이아웃과 속성을 변경하여 디자인 요소를 조작한다. D3의 데이터 표현과 전달력이 뛰어남에 따라 현재 인터렉티브 시각화 분야에서 급격하게 주요 라이브러리로 부상하고 있다.

 

https://d3js.org/


 

 

http://mbostock.github.io/d3/tutorial/protovis.html


 


'Development > JavaScript, jQuery, ...' 카테고리의 다른 글

JSON - 객체  (0) 2019.12.21
클라이언트 객체의 종류  (0) 2019.12.10
d3js  (0) 2019.12.05
Cannot read property 'nodeValue' of undefined at xxxxx  (0) 2019.11.30
JSON 데이터 타입(datatype)  (0) 2019.11.20
빈 텍스트 노드 처리  (0) 2019.11.09
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

 

베이지안 네트워크 w/ Java

웨카는 베이지안 네트워크를 만들어 실행할 수 있는 라이브러리를 지원하고, 학습을 위한 K2 알고리즘을 포함하고 있습니다.

웨카외에 GUI도구와 API를 사용할 수 있습니다. 

 

 

 

GUI Tool

오픈마르코프(OpenMarkov)와 웨카 같은 도구의 장점은 GUI(Graphical User Interface)를 지원하여 그래프를 만들고 확률을 지정할 있습니다.

구분

설명

오픈마르코프(OpenMarkov)

https://codedragon.tistory.com/9576

웨카(WEKA)

https://codedragon.tistory.com/2863

 

 

 

 

 

Java API

자바를 사용하므로 노드와 에지, 그리고 그 확률을 계산할 때 자바 API를 사용합니다.

구분

설명

Netica(네티카)

https://codedragon.tistory.com/9728

Jayes(제이즈)

https://codedragon.tistory.com/9715

JavaBayes API(자바베이즈 API)

https://codedragon.tistory.com/9459

 

 


'Development > Java' 카테고리의 다른 글

breast-cancer.arff  (0) 2019.12.06
OneR 수행단계  (0) 2019.12.05
베이지안 네트워크 w/ Java  (0) 2019.12.05
ARFF(Attribute-Relation File Format)  (0) 2019.12.04
WEKA Applications  (0) 2019.12.04
담당자별 머신러닝 수행 역할 w/ Weka  (0) 2019.12.04
Posted by codedragon codedragon

댓글을 달아 주세요