달력

1

« 2020/1 »

 

 

Python 데이터구조

·       벡터(Vector), 행렬(Matrix), 배열(Array) 구분 없이 리스트(List) 데이터 구조 습니다. 리스트는 List tuple, set 형태로 구분되어져서 사용됩니다.

·       배열을 사용하기 위해서는 넘파이(Numpy) array 이용합니다. 리스트를 행과 열로 묶어서 사용할때 넘파이의 array 사용합니다.

·       데이터 프레임을 사용하기 위해서 판다스(pandas) 데이터 프레임(Data Frame) 이용합니다.

 

 

 


'Development > Python' 카테고리의 다른 글

Confusion matrix - R vs Python  (0) 2020.02.01
객체 사용  (0) 2020.02.01
Python 데이터구조  (0) 2020.01.31
{NumPy}패키지의 기초 통계 분석 함수  (0) 2020.01.31
in1d(n, h)  (0) 2020.01.31
unique() vs bincount()  (0) 2020.01.31
Posted by codedragon codedragon

댓글을 달아 주세요



 

 

{NumPy}패키지의 기초 통계 분석 함수

파이썬에서는 데이터 집합에 대해 간단한 기초 통계량(기술 통계)를 계산할 있는 함수를 제공합니다.

 

함수

설명

len()

·       데이터의 개수(count)

mean()

·       평균(mean, average)

 

·       https://codedragon.tistory.com/7482

argmax()

·       이산데이터의 표본최빈값

 

 

var()

·       분산(variance)

 

·       https://codedragon.tistory.com/7431

var(data, ddof=1)

·       ddof=1 인자를 주면 비편향 분산을 구해줍니다.

 

std(data, ddof=1)

·       표준 편차(standard deviation)

·       ddof=1 인자를 주면 비편향 분산을 구해줍니다.

 

·       https://codedragon.tistory.com/7319

max()

·       최댓값(maximum)

·       데이터 중에서 가장 큰 값

min()

·       최솟값(minimum)

·       데이터 중에서 가장 작은

median()

·       중앙값(median)

 

·       https://codedragon.tistory.com/7484

percentile()

·       사분위수(quartile)

 

·       https://codedragon.tistory.com/7484

cumsum(x)

누적 합 계산


 

cumprod(x)

누적 계산


 

sort()

·       배열을 그 자리에서 정렬하고(원래 배열의 순서를 바꾼다) None을 반환합니다.

·       원래 배열을 유지하고 싶다면 정렬하기 전에 복사본을 만들어 두어야 합니다.

 

 


'Development > Python' 카테고리의 다른 글

객체 사용  (0) 2020.02.01
Python 데이터구조  (0) 2020.01.31
{NumPy}패키지의 기초 통계 분석 함수  (0) 2020.01.31
in1d(n, h)  (0) 2020.01.31
unique() vs bincount()  (0) 2020.01.31
객체와 할당  (0) 2020.01.31
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

기초 통계량

·         기술 통계(descriptive statistics)

·         데이터의 가장 기본적인 특징을 알려주는 들입니다.

·         기초 통계량은 데이터 개수, 표본 평균, 분산, 표준 편차, 다섯 수치 요약(최솟값, 중간값, 최댓값, 분위수), 최빈값 등이 사용됩니다.

·         최대값, 최소값, 편차, 분산을 구하는 것은 데이터의 생김새 볼수 있도록 해주며 이런 데이터 생김새를보고 의사결정 하게 됩니다.

 


Posted by codedragon codedragon

댓글을 달아 주세요

2020. 1. 31. 14:53

in1d(n, h) Development/Python


 

 

in1d(n, h)

·       n 엘리먼트가 h 안에 존재하는지 여부를 배열로 반환합니다.

·       n h 배열은 모양이 같지 않아도 됩니다.

 

 

 

union1d()

·       1차원 배열의 이론적인 합집합을 계산합니다.

·       배열의 모양은 같지 않아도 됩니다.

 


 

 

 

 

 

 

intersect1d()

·       1차원 배열의 이론적인 교집합을 계산합니다.

·       배열의 모양은 같지 않아도 됩니다.

 

 


 


'Development > Python' 카테고리의 다른 글

Python 데이터구조  (0) 2020.01.31
{NumPy}패키지의 기초 통계 분석 함수  (0) 2020.01.31
in1d(n, h)  (0) 2020.01.31
unique() vs bincount()  (0) 2020.01.31
객체와 할당  (0) 2020.01.31
Python 데이터 분석 절차  (0) 2020.01.31
Posted by codedragon codedragon

댓글을 달아 주세요



 

 

 

unique() vs bincount()

 

unique()

bincount()

발생하지 않은 경우의 출력안됨

발생하지 않은 경우의 수는 0으로 출력됨

 

 


'Development > Python' 카테고리의 다른 글

{NumPy}패키지의 기초 통계 분석 함수  (0) 2020.01.31
in1d(n, h)  (0) 2020.01.31
unique() vs bincount()  (0) 2020.01.31
객체와 할당  (0) 2020.01.31
Python 데이터 분석 절차  (0) 2020.01.31
Set Comprehension  (0) 2020.01.30
Posted by codedragon codedragon

댓글을 달아 주세요


 

중위수(Median)

·         중앙값 중위수 2사분위수 2st Qu

·         자료의 집단 전체를 데이터 크기대로 정렬하였을 가장 가운데(중앙) 있는

·         컬럼 데이터를 오름차순으로 정렬하여 가운데에 있는

·         n개의 자료를 크기 순으로 나열한 것중에서 가장 가운데 위치한 자료값

·         데이터의 수가 짝수이면 가장 가운데에 있는 수의 평균을 사용합니다.

 

http://bit.ly/2PpquNV

http://bit.ly/2zbae9p

 

 

 

중위수 표현식

구분

표현식

중위수

x 짝수인 경우

{1, 2, 3, 4, 5, 6}


6/2 = 3

x 홀수인 경우

{1, 2, 3, 4, 5}


(5+1)/2 = 3

 

 

 

 

Posted by codedragon codedragon

댓글을 달아 주세요


 

 

객체와 할당



 

 


'Development > Python' 카테고리의 다른 글

in1d(n, h)  (0) 2020.01.31
unique() vs bincount()  (0) 2020.01.31
객체와 할당  (0) 2020.01.31
Python 데이터 분석 절차  (0) 2020.01.31
Set Comprehension  (0) 2020.01.30
ndarray 클래스  (0) 2020.01.30
Posted by codedragon codedragon

댓글을 달아 주세요


 

Python 데이터 분석 절차

 

단계

세부단계

기본 package 설정

·         분석용 package install / import

1.

데이터 준비

·         데이터 수집(obtain the data)

·         수집할 데이터 결정(determine what data you can access)

·         데이터 가져오기

·         샘플링(sampling)

2.

데이터 탐색

·         데이터프레임(dataframe)으로 저장

·          

3.

데이터 전처리

·         데이터 정리(clean the data)

·         data target으로 분리

·         이상적인 데이터셋 정의(define the ideal data set)

·         필터

·         수치형변수 표준화

·         범주형변수 인코딩

 

·         data(X) 레이블 인코딩

·         Class(target) 레이블 인코딩

4.

훈련/검증용 데이터분할

 

·         교차 검증(CV)

5.

모델 구축

·         다양한 분석기법 적용

·         학습 알고리즘 적용

·         성능 지표

·         하이퍼파라미터 최적화

6.

모델 평가

·         모델 검정

·         검증용데이터로예측

·         정오분류표로검정

·         정확도, 민감도확인

·         ROC 곡선그리기

7.

최적화

·         교차검정

·         학습곡선

·         검증곡선

·         하이퍼파라미터튜닝

 

 


'Development > Python' 카테고리의 다른 글

unique() vs bincount()  (0) 2020.01.31
객체와 할당  (0) 2020.01.31
Python 데이터 분석 절차  (0) 2020.01.31
Set Comprehension  (0) 2020.01.30
ndarray 클래스  (0) 2020.01.30
numpy 불린 인덱싱 (boolean indexing)  (0) 2020.01.29
Posted by codedragon codedragon

댓글을 달아 주세요



 

 

Set Comprehension

입력된 Set자로형으로 부터 지정된 표현식에 따라 새로운 Set 컬렉션을 반환합니다.

 

{출력표현식 for 요소 in set자료형 [if 조건식]}

 

 


'Development > Python' 카테고리의 다른 글

객체와 할당  (0) 2020.01.31
Python 데이터 분석 절차  (0) 2020.01.31
Set Comprehension  (0) 2020.01.30
ndarray 클래스  (0) 2020.01.30
numpy 불린 인덱싱 (boolean indexing)  (0) 2020.01.29
리스트 내장(리스트 내포; List comprehension) 형식  (0) 2020.01.29
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

정규 분포(Normal Distribution)

·       가우스 분포 가우시안 정규 분포(Gaussian normal distribution)

·       모든 값을 표현하기에 최대/최소값 없이 무한대로 표현이 가능한 분포입니다.

·       자연 현상에서 나타나는 숫자를 확률 모형으로 모형화할 때 많이 사용합니다.

 

 

http://bit.ly/2sf9nAr

http://bit.ly/2sg37Iz

http://bit.ly/2sf96gT

 

 

 

표준 정규 분포(standard normal distribution)

정규 분포 중에서도 평균이 0 이고 분산이 1 ( μ=0 ,  σ2=1 ) 정규 분포를 말합니다.

 

 

 

 

'정규분포를 따른다' 의미

·       통계에서 '정규분포를 따른다'것은 매우 중요합니다.

·       동전을 던지거나 주사위를 던질 정규분포를 따르며 '일반적인 모델'이라는 의미입니다.

 

 

 

 

정규 분포 표현

정규분포는 2개의 매개 변수 평균(μ)과 표준편차 (σ) 에 의해 모양이 결정됩니다.

정규 분포는 평균(μ)과 분산2)의 두 개 파라미터를 가지며 N(μ, σ2) 표현합니다.

 

 

 

 

 

 

정규 분포의 범위

정규 분포이기 때문에 특정 범위에 포함되는 값의 비율을 정확히 알 수 있습니다.

 

관측치의 95%가 파란색 음영 영역으로 표시된 평균의 2 표준 편차에 해당합니다. 값의 95%는 평균의 1.96 표준 편차 내(1.96 +1.96 사이)에 있습니다. 따라서 관측치의 5%(0.05) 미만이 이 범위의 바깥에 있습니다. 이 범위를 바탕으로 많은 가설 검정에서 알파 수준으로 0.05가 사용됩니다.

관측치의 68%가 평균에서 1 표준 편차(-1 ~ +1)에 해당합니다.

관측치의 약 99.7%는 평균의 3 표준 편차(-3 ~ +3)에 해당합니다.

 

 

 


정규 분포 히스토그램

 


'Development > Big Data, R, ...' 카테고리의 다른 글

기초 통계량  (0) 2020.01.31
중위수(Median), 중앙값 , 2사분위수  (0) 2020.01.31
정규 분포(Normal Distribution)  (0) 2020.01.30
머신러닝 vs 통계학  (0) 2020.01.30
데이터 분석용 파이썬 패키지  (0) 2020.01.30
강화학습 도식도  (0) 2020.01.30
Posted by codedragon codedragon

댓글을 달아 주세요