달력

12

« 2019/12 »


 

 

1차원 실수 분포 플롯


 

메소드

설명

rugplot()

·       Rug plot (러그 플롯)

·       데이터 위치를 x축 위에 작은 선분(rug)으로 나타내어 실제 데이터들의 위치를 보여줍니다.

 

http://seaborn.pydata.org/generated/seaborn.rugplot.html

kdeplot()

·       Kernel density plot(커널 밀도 플롯)

·       커널이라는 함수를 겹치는 방법으로 히스토그램보다 부드러운 형태의 분포 곡선을 보여줍니다.

 

http://seaborn.pydata.org/generated/seaborn.kdeplot.html

distplot()

·       Distribution plot

·       러그(rug)와 커널 밀도 추정(KDE; Kernel Density Estimation)표시 기능이 있어서 Matplotlib hist()명령보다 많이 사용됩니다.

 

http://seaborn.pydata.org/generated/seaborn.distplot.html

 

 

 

 

sns.distplot(x, kde=False, fit=sp.stats.norm)

 

seaborn.distplot(a, bins=None, hist=True, kde=True, rug=False, fit=None, hist_kws=None, kde_kws=None, rug_kws=None, fit_kws=None, color=None, vertical=False, norm_hist=False, axlabel=None, label=None, ax=None)

 

parameter

description

bins

막대의 개수 또는 구간을 명시

kde

밀도 그래프 유무

True

밀도 그래프를 려줍니다.

False

밀도 그래프를 그리지 습니.

 

hist

히스토그램 유무

True

히스토그램 려줍니다.

False

히스토그램 그리지 습니.

 

fit

랜덤 변수 객체

 

 

http://seaborn.pydata.org/generated/seaborn.distplot.html


'Development > Python' 카테고리의 다른 글

한글 유니코드 찾기  (0) 2019.12.23
파이썬 자료형  (0) 2019.12.22
1차원 실수 분포 플롯  (0) 2019.12.21
{pandas} DataFrame  (0) 2019.12.21
Python 삭제하기 - uninstall  (0) 2019.12.21
if  (0) 2019.12.20
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

분석 모형 구축시 오류(error)

분석 모형을 구축하는 데에는 일반화 오류와 훈련 오류라는 가지 종류의 오류가 발생할 있고, 구축된 분석 모형은 이를 고려하여 검증되어야 합니다(P. Tan, M. Steinbach, and V. Kumar, 2007)

 

 

구분

설명

일반화 오류

·         Generalization error

·         분석 모형을 만들 주어진 데이터 집합의 특성을 지나치게 반영하여 발생하는 오류입니다.

·         주어진 데이터 집합은 모집단 일부분임에도 불구하고 그것이 가지고 있는 주변적인 특성, 단순 잡음 등을 모두 묘사하기 때문에 일반화 오류가 발생합니다. 이러한 모형은 특별히 과적합(overfitting) 되었다라고 합니다.

훈련 오류

·         Training error

·         일반화 오류와는 반대되는 개념입니다.

·         주어진 데이터 집합에 부차적인 특성과 잡음이 있다는 점을 고려하여 그것의 특성을 반영하도록 분석 모형을 만들어 생기는 오류입니다.

·         훈련 오류가 지나치게 많이 발생하는 모형은 과적합에 반대되는 개념으로 미적합(underfitting) 되었다고 합니다.

 

 

 

Posted by codedragon codedragon

댓글을 달아 주세요



 

 

 

빅데이터 품질 요소

데이터 품질 요소

데이터 품질 전략

정확성(acuracy)

데이터 사용 목적에 따라 데이터 정확성의 기준을 다르게 적용합니다.

 

ex) 사용자가 접속한 사이트와 이동 지점을 분석하는 클릭스트링 분석과 부정이나 사기를 탐지하는 경우 데이터의 품질 수준은 다릅니다.

완전성(completenes)

필요한 데이터의 완전한 확보보다는 필요한 데이터를 식별하는 수준으로 적용 가능합니다.

적시성(timelines)

소멸성이 강한 데이터에 대해 어느 정도의 품질 기준을 적용할 것인지 결정합니다.

 

ex) 로그 데이터, 트윗 데이터, 위치 데이터 등은 하루, 시간, 동안만 타당성을 가집니다.

일관성(consistency)

같은 데이터라 할지라도 사용 목적에 따라 달라지는 데이터 수집 기준 때문에 데이터 의미가 달라질 있습니다.

 

https://codedragon.tistory.com/3958

 


Posted by codedragon codedragon

댓글을 달아 주세요



 

 

카카오톡 친구추가 하기

채팅창의 이름과 채팅 글의 좌측에 있는 동그란 사진을 클릭합니다.


 

 

좌측하단의 [친구추가] 버튼을 클릭하면 됩니다.


 


 


'TechMaster > SmartWork' 카테고리의 다른 글

MAG(Microsoft Acadmic Graph) 학술 검색 서비스  (0) 2020.03.17
마스크 구매 5부제, 마스크 요일제  (0) 2020.03.05
카카오톡 친구추가 하기  (0) 2019.12.21
1gram 광거 제거  (0) 2019.12.14
AIMP - install  (0) 2019.11.30
CORNPlayer - download & install  (0) 2019.11.23
Posted by codedragon codedragon

댓글을 달아 주세요


 

볼펜 뚜껑· 레고 블록에 구멍을 이유

어린아이가 그것을 삼키더라도 작은 구멍으로 공기가 통하도록 질식사를 막으려는 의도 디자인이 변경되어졌습니다.

 


 

http://bit.ly/2UULRsA

 


'Development > UI&UX' 카테고리의 다른 글

섬네일(Thumbnail)  (0) 2020.03.14
User Experience 기획 및 디자인 프로세스  (0) 2019.12.27
볼펜 뚜껑· 레고 블록에 구멍을 낸 이유  (0) 2019.12.21
DESIGN METHOD  (0) 2019.12.13
Webflow  (0) 2019.12.08
효율적인 프로토타입 테스트를 위한 고려 사항  (0) 2019.11.17
Posted by codedragon codedragon

댓글을 달아 주세요

   

   

Unicode 9.0 Character Code Charts

http://www.unicode.org/charts/

   

   

Posted by codedragon codedragon

댓글을 달아 주세요



 

 

객체

·       객체, hashtable, struct

·       이름(name)과 값(value)으로 구성된 프로퍼티(property)의 정렬되지 않은 집합입니다.

·       객체(object)는 중괄호({}) 감싸서 표현합니다.

·       객체는 여는 중괄호({)로 시작하여 닫는 중괄호(})로 끝납니다. 그 사이에 문자열과 값이 콜론(:)으로 연결되며, 이것은 콤마(,)로 반복될 수 있습니다.

·       데이터의 이름도 문자열이므로, 항상 큰따옴표("")와 함께 입력해야 합니다.

·       쉼표(,)를 사용하여 여러 프로퍼티를 포함할 수 있으며 프로퍼티의 순서는 중요하지 않습니다.

·       {}와 같이 빈 객체를 표현하는 것을 포함합니다.

·       여러 언어들에서 object, hashmap, struct, dictionary 실현됩니다.

 

name-value 형식의 (pair)

{

이름(key):(value),

이름:

}


 

 

 

이름과 값으로 이루어진 네 쌍의 프로퍼티를 가지는 객체

데이터의 이름도 문자열이므로, 항상 큰따옴표("")와 함께 입력해야 합니다.

{

"name": "사과",

"orgin": "영주",

"grade": 1,

"weight": 2.3

}

 

 

 

객체 안의 객체

JSON에서 데이터 이름과 대응되는 값으로 숫자, 문자열, 불린뿐만 아니라 또 참조자료형인 다른 객체가 올 수도 있습니다.

만약 데이터의 값이 객체라면 객체 안에 객체가 포함되는 계층 구조가 형성됩니다.

 

가장 상위 계층의 데이터는 데이터값으로 네 개의 데이터를 가지고 있습니다. 중에서 두 번째 데이터인 "origin" 객체는 또 다른 3개의 데이터를 가지고 있습니다.

{

"name": "사과",

"origin": {

"region": "영주",

"owner": "김애플",

"phone": "01012345678"

},

"grade": 1,

"weight": 2.3

}

 

 


'Development > JavaScript, jQuery, ...' 카테고리의 다른 글

this, this 키워드  (0) 2020.01.23
Module Counts, Node.js의 패키지/모듈 개수 확인  (0) 2019.12.31
JSON - 객체  (0) 2019.12.21
클라이언트 객체의 종류  (0) 2019.12.10
d3js  (0) 2019.12.05
Cannot read property 'nodeValue' of undefined at xxxxx  (0) 2019.11.30
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

DataFrame

·         데이터프레임(DataFrame) 클래스

·         {pandas} 자료구조

·         여러 개의 칼럼(Column)으로 구성된 2차원 형태의 자료구조입니다. , 행과 열로 구성된 2차원 데이터를 만들어 줍니다.

·         pandas의 DataFrame은 엑셀의 스프레드시트와 비슷한 테이블 형태를 가지고 있습니다. 

·         행을 구분해주는 인덱스(index) 열을 구분해주는 컬럼(column) 있습니다. 그래서 별도로 지정해주지 않으면 인덱스는 리스트처럼 정수로 설정이 되고 설정된 인덱스는 변경되지 않습니다.

·         DataFrame 객체에서 칼럼의 이름과 순서는 columns 인자로 지정할 수 있습니다.          

·         데이터프레임은 전치(transpose)연산 포함하여 NumPy 2차원 배열이 가지는 대부분의 속성이나 메서드를 지원합니다.

 

 

DataFrame(raw_data, columns=[…], index=[…])

 

columns

칼럼( 키값) 이름을 지정

index

인덱스( 리스트의성분) 이름을 지정

 

 

자료형 타입은 아래와 같이 출력됩니다.

<class 'pandas.core.frame.DataFrame'>

 

 


'Development > Python' 카테고리의 다른 글

파이썬 자료형  (0) 2019.12.22
1차원 실수 분포 플롯  (0) 2019.12.21
{pandas} DataFrame  (0) 2019.12.21
Python 삭제하기 - uninstall  (0) 2019.12.21
if  (0) 2019.12.20
Excel 데이터 다루기  (0) 2019.12.19
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

Python 삭제하기 - uninstall

Windows + R

 

 

"appwiz.cpl" 입력합니다.

appwiz.cpl


 

 

[Python 3.x.x] 항목 더블 클릭


 

 

[Uninstall]


 


 

 

[Close]


 

 


'Development > Python' 카테고리의 다른 글

1차원 실수 분포 플롯  (0) 2019.12.21
{pandas} DataFrame  (0) 2019.12.21
Python 삭제하기 - uninstall  (0) 2019.12.21
if  (0) 2019.12.20
Excel 데이터 다루기  (0) 2019.12.19
패키지 import 방법  (0) 2019.12.18
Posted by codedragon codedragon

댓글을 달아 주세요



 

 

CRISP-DM Process

CRISP-DM Process 6단계로 구성되어 있습니다.

단계는 폭포수 모델처럼 일방향으로 구성되어 있지 않고 단계 피드백(Feedback) 통하여 단계별 완성도를 높이게 되어 있습니다.

 



 

단계

설명

업무 이해

(Business Understanding)

비즈니스 관점에서 프로젝트의 목적 요구사항 이해하기 위한 단계입니다.

도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획을 수립하는 단계입니다.

 

세부 수행 내용

·         업무 목적 파악

·         상황파악

·         데이터 마이닝 목표 설정

·         프로젝트 계획 수립

데이터 이해

(Data Understanding)

데이터 이해는 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 과정으로 구성되고 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계입니다.

 

세부 수행 내용

·         초기 데이터 수집

·         데이터 기술 분석

·         데이터 탐색

·         데이터 품질 확인

데이터 준비

(Data Preparation)

분석을 위하여 수집된 데이터에서 분석기법에 적합한 데이터셋을 편성하는 단계로써 많은 시간이 소요될 있습니다.

 

세부 수행 내용

·         분석용 데이터셋 선택

·         데이터 정제

·         분석용 데이터셋 편성

·         데이터 통합

·         데이터 포맷팅

모델링

(Modeling)

다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계입니다.

모델링 과정에서 데이터셋이 추가로 필요한 경우 데이터 준비단계를 반복 수행할 있습니다

모델링 단계를 통하여 찾아낸 모델은 테스트용 프로세스와 데이터셋으로 평가하여 모델 과적합(Overfitting)등의 문제를 발견하고 대응 방안을 마련합니다.

 

세부 수행 내용

·         모델링 기법 선택

·         모델 테스트 계획 설계

·         모델 작성

·         모델 평가

평가

(Evaluation)

모델링 단계에서 얻은 모델이 프로젝트의 목적에 부합하는지를 평가합니다.

평가 단계의 목적은 데이터 마이닝 결과를 수용 것인지 최종적으로 판단하는 과정입니다.

 

세부 수행 내용

·         분석결과 평가

·         모델링 과정 평가

·         모델 적용성 평가

전개

(Deployment)

모델링과 평가단계를 통하여 완성된 모델은 업무에 적용하기 위한 계획을 수립하고 모니터링과 모델의 유지보수 계획을 마련합니다.

모델은 적용되는 비즈니스 도메인 특성, 입력되는 데이터의 품질 편차, 운영 모델의 평가 기준등에 따라 생명주기(Life Cycle) 다양하므로 상세한 전개 계획이 필요합니다.

CRSIP-DM 마지막 단계이므로 프로젝트 종료 관련 프로세스를 수행하여 프로젝트를 완료합니다.

 

세부 수행 내용

·         전개 계획 수립

·         모니터링과 유지 보수 계획 수립

·         프로젝트 종료보고서 작성

·         프로젝트 리뷰

 

 


Posted by codedragon codedragon

댓글을 달아 주세요