달력

12

« 2019/12 »


 

 

 

이상치의 개념도

 

선형회귀


 

 

 

곡선회귀


 


Posted by codedragon codedragon

댓글을 달아 주세요



 

 

결측값(Missing data)

·         결측치(Missing Value)

·         NA(Not Available) 표시되어 집니다.

·         변수 값을 조사나 측정하지 못했을 경우나 변수 값에 대한 정보를 모르는 경우를 의미합니다.

·         샘플에서 누락된 변수값을 지칭합니다.

·         결측치는 오류로 인해 발생할 수도 있지만, 단순히 조사 대상이 측정을 원하지 않을 때에도 발생합니다.

 

 

 

 

 

 

결측값 처리

구분

설명

연산 불가

·         데이터에 결측치가 있는 경우 값이 존재하지 않으므로 해당 변숫값을 사용한 계산을 수행할 없습니다.

·         결측치가 있는 경우 {rpart} NA 대신하는 변수인 surrogate 변수를 사용하여 결측치 문제를 해결합니다.

·         랜덤 포레스트 모델은 NA 존재하는 경우 곧바로 에러를 발생시킵니다. 경우 NA 다른 값으로 대체해주는 rfImpute{randomForest} 함수를 사용하여 처리할 있습니다.

처리 속도

·         결측값 처리를 위해 시간을 많이 쓰는 것은 비효율적입니다.

·         가능하면 결측값은 제외하고 처리하는 적합하지만 결측값 자체가 의미가 있는 경우도 있습니다.

·         결측값을 어떻게 처리하느냐는 전체 작업 속도에 많은 영향을 주기 때문에 부분을 자동화하면 업무 효율성이 매우 향상됩니다.

 

 

 


Posted by codedragon codedragon

댓글을 달아 주세요



 

 

데이터 마이닝 기법

아래의 데이터 마이닝 기법 외에도 데이터 마이닝 분석기법은 많이 존재합니다.

·       군집분석,

·       의사결정나무 분석,

·       연관성 규칙 발견 분석,

·       인공 신경망,

·       사례기반 추론,

·       유전자 알고리즘 기법

·       

 

Posted by codedragon codedragon

댓글을 달아 주세요

 

 

데이터 마이닝 vs 기계학습

데이터 마이닝

기계학습

데이터에서 패턴 찾아줍니다.

패턴을 학습하여 모델링을 수행합니다.

학습된 모델은 새로운 데이터의 패턴을 과거 데이터 기준으로 식별하여 분석용도에 따라 분류/군집/연관 분석하게 됩니다.

 

 


Posted by codedragon codedragon

댓글을 달아 주세요


 

 

 

교사 학습 알고리즘(Supervised Learning Algorithm)

·         Artificial neural network

·         Boosting

·         Bayesian statistics

·         Decision tree

·         Gaussian process regression

·         Nearest neighbor algorithm

·         Support vector machine

·         Random forests

·         Symbolic machine learning

·         Ensembles of classifiers

·        

 


Posted by codedragon codedragon

댓글을 달아 주세요



 

 

교사 학습 분석 과정 도식도

새로운 입력데이터를 입력하면 학습을 통해 최적화된 분석모델을 도출합니다.

Trainning Data Set 일부는 Traing Data(파란색)으로 나머지는 Test Data(오랜지색)으로 사용합니다.

 


 

 

 

도출된 분석 모델을 실제 데이터에 적용하여 최적의 예측값을 도출합니다.


 


Posted by codedragon codedragon

댓글을 달아 주세요


 

 

교사 학습(Supervised Learning)

·         지도학습

·         사람이 교사로서 각각의 입력에 대해 레이블을 달아서 컴퓨터한테 주면 컴퓨터가 그것을 학습하는 것을 말합니다.

·         데이터에서 하나의 함수를 유추 내기 위한 방법입니다. (강아지 사진데이터에서 강아지라고 판단하는)

·         입력 데이터에 결과 값이 포함되어(labeling 되어) 있습니다. (강아지 사진에는 강아지가 포함되어 있음)

·         컴퓨터에게 어떤 것이 맞는 답인지를 지정해 줍니다. 컴퓨터는 지정해 답과 비슷한 것을 판단해서 맞는 것이 무엇인지 판단합니다. 판단을 하기 위해 수많은 데이터를 활용하여 학습합니다.

·         이미 알려진 사례를 바탕으로 일반화된 모델을 만들어 의사 결정 프로세스를 자동화합니다. , 사용자는 알고리즘에 입력과 기대되는 출력을 제공하고 알고리즘은 주어진 입력에서 원하는 출력을 만드는 방법을 찾습니다. 이렇게 학습된 알고리즘은 사람의 도움 없이도 새로운 입력이 주어지면 적절한 출력 만들 있게 됩니다.

·         어떤 입력에 대해서 어떤 결과가 나와야 하는지 사전 지식을 갖고 있는 경우에 해당 입력에 대해 특정 출력(label) 나오도록 하는 규칙을 찾아냅니다. 보통은 입력과 출력 쌍으로 구성되는 학습 데이터(training data) 의해 입력으로부터 출력을 끌어내는 규칙(rule) 발견하는 것을 학습의 목표로 하며, 흔히 말하는 회귀(regression) 방법이 여기에 해당합니다.

·         미리 값을 알고 있는 훈련 데이타를 통해, 가중치와 바이어스를 조금씩 변화시켜 가면서 출력이 최적의 상태가 되도록 하는 방법입니다.

 

 

·         명확한 목적하에 데이터분석을 실시합니다. , 목적 (Target Value) 있습니다.

·         분류(Classification), 추측, 예측, 최적화 통해 사용자의 주도하에 분석을 실시하고 지식을 도출하는 것이 목적입니다.

·         지도 학습이 결과로 도출되는 값에 대하여 사전에 인지하고 어떠한 데이터를 넣었을 어떠한 결과가 나올지를 예측하는 것이라면 비지도 학습의 경우 목표값을 사전에 정의하지 않고 데이터 자체만을 가지고 그룹들을 도출함으로써 해석이 용이하지는 않지만 새로운 유형의 인사이트(Insight) 도출하기에 유용한 방식으로 활용할 있습니다.

·         주로 분류기 제작에 사용됩니다.

·         현재까지 가장 많이, 그리고 활발하게 연구가 진행된 분야로 우리가 알고 있는 많은 학습 방법이 여기에 해당 됩니다.

 

 

http://bit.ly/2vPYJEV

https://en.wikipedia.org/wiki/Supervised_learning

 

 

 

 

super·visor - 네이버 사전

명사

감독관, 관리자; 지도교수

https://bit.ly/31ggXLB

 

 

 

 

 

 

 


Posted by codedragon codedragon

댓글을 달아 주세요

2019. 12. 4. 10:30

scrapy 특징 Development/Python



 

 

scrapy 특징

scrapy 파이썬 기반의 프레임워크로 스크랩 과정이 단순합니다. 특히 번에 여러페이지를 불러오기 수월하고, scrapyd, scrapinghub 부가적인 요소들이 많습니다.

 

특징

설명

파이썬 기반

파이썬 코드에 친숙하다면 쉬운 설정 가능

단순한 스크랩 과정

크롤링 , 바로 데이터 처리가 가능

다양한 부가 요소

scrapyd, scrapinghub 부가요소, 쉬운 수집, 로깅 지원

 

 


Posted by codedragon codedragon

댓글을 달아 주세요


 

카파계수 등급

·       카파계수 등급은 1977년에 발표한 Landis and Koch의 해석을 주로 따릅니다.

·       카파계수 값이 0 0.2 사이로 나오면 Slight agreement로서 약간의 일치도를 보이는 것으로 판단하고, 0.8 이상으로 나오면 Almost Perfect agreement로 완벽한 일치도로 판단할 수 있습니다.

 

Cohen's Kappa Coefficient

Strength of Agreement

Agreement

< 0.000

Poor

거의 일치 안하는 상태

0.000 ~ 0.200

Slight

약간의 일치 상태

0.201 ~ 0.400

Fair

어느 정도 일치 상태

0.401 ~ 0.600

Moderate

적당한 일치 상태

0.601 ~ 0.800

Substantial

상당한 일치 상태

0.801 ~ 1.000

Almost Perfect

완벽한 일치 상태

 


https://codedragon.tistory.com/9737

 

'Development > Big Data, R, ...' 카테고리의 다른 글

교사 학습 분석 과정 도식도  (0) 2019.12.04
교사 학습(Supervised Learning)  (0) 2019.12.04
코헨의 Kappa(Cohen's kappa)  (0) 2019.12.04
Square Error  (0) 2019.12.04
데이터 마이닝 수행 절차  (0) 2019.12.04
데이터 분석 시장 전망  (0) 2019.12.03
Posted by codedragon codedragon

댓글을 달아 주세요



 

 

ARFF(Attribute-Relation File Format)

·       ARFF는 웨카(WEKA)에서 사용하는 파일 포맷입니다.

·       .arff 파일 확장자는 웨카(WEKA) 입력 형식을 따르는 데이터 파일임을 나타냅니다.

·       csv txt 파일도 불러와 arff 형식으로 변환할 있습니다.

·       데이터는 엑셀이나 데이터베이스테이블 처럼 2x2로 구성되어 있고, 가로행은 attribute(속성 또는 필드, 이하 속성으로 명명) / 세로열은 instance (데이터 값 들, 이하 인스턴스 로 명명) 라고 합니다.

·       weka 기본적으로 제일 오른쪽 마지막 속성목적변수(class)로 암묵적으로 인식하고, 그 외 속성은 이 class 를 알아내기 위한 분류 및 기계학습을 지도 학습하는데 사용됩니다.

 

 

 

 

arff 파일 구조

ARFF는 헤더 부분과 본문 부분으로 크게 나눌 수 있습니다.

 

구분

설명

헤더

데이터에 관련한 기본 정보를 정의하는 부분으로 데이터파일의 이름과 속성 이름을 정의하고 속성의 타입까지 정의할 수 있습니다.

본문

실제 데이터가 입력되는 부분으로 속성 명에서 정의된 속성의 실제 데이터 값을 행 단위로 입력합니다.

 

 


 

 

%

% 주석을 의미합니다.

데이터셋에 대한 정보를 제공합니다.

@relation

테이터셋 명칭

@attribute

속성목록

@data

데이터 구조

 

 

 


Posted by codedragon codedragon

댓글을 달아 주세요