달력

1

« 2020/1 »



 

 

Set Comprehension

입력된 Set자로형으로 부터 지정된 표현식에 따라 새로운 Set 컬렉션을 반환합니다.

 

{출력표현식 for 요소 in set자료형 [if 조건식]}

 

 


'Development > Python' 카테고리의 다른 글

객체와 할당  (0) 2020.01.31
Python 데이터 분석 절차  (0) 2020.01.31
Set Comprehension  (0) 2020.01.30
ndarray 클래스  (0) 2020.01.30
numpy 불린 인덱싱 (boolean indexing)  (0) 2020.01.29
리스트 내장(리스트 내포; List comprehension) 형식  (0) 2020.01.29
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

정규 분포(Normal Distribution)

·       가우스 분포 가우시안 정규 분포(Gaussian normal distribution)

·       모든 값을 표현하기에 최대/최소값 없이 무한대로 표현이 가능한 분포입니다.

·       자연 현상에서 나타나는 숫자를 확률 모형으로 모형화할 때 많이 사용합니다.

 

 

http://bit.ly/2sf9nAr

http://bit.ly/2sg37Iz

http://bit.ly/2sf96gT

 

 

 

표준 정규 분포(standard normal distribution)

정규 분포 중에서도 평균이 0 이고 분산이 1 ( μ=0 ,  σ2=1 ) 정규 분포를 말합니다.

 

 

 

 

'정규분포를 따른다' 의미

·       통계에서 '정규분포를 따른다'것은 매우 중요합니다.

·       동전을 던지거나 주사위를 던질 정규분포를 따르며 '일반적인 모델'이라는 의미입니다.

 

 

 

 

정규 분포 표현

정규분포는 2개의 매개 변수 평균(μ)과 표준편차 (σ) 에 의해 모양이 결정됩니다.

정규 분포는 평균(μ)과 분산2)의 두 개 파라미터를 가지며 N(μ, σ2) 표현합니다.

 

 

 

 

 

 

정규 분포의 범위

정규 분포이기 때문에 특정 범위에 포함되는 값의 비율을 정확히 알 수 있습니다.

 

관측치의 95%가 파란색 음영 영역으로 표시된 평균의 2 표준 편차에 해당합니다. 값의 95%는 평균의 1.96 표준 편차 내(1.96 +1.96 사이)에 있습니다. 따라서 관측치의 5%(0.05) 미만이 이 범위의 바깥에 있습니다. 이 범위를 바탕으로 많은 가설 검정에서 알파 수준으로 0.05가 사용됩니다.

관측치의 68%가 평균에서 1 표준 편차(-1 ~ +1)에 해당합니다.

관측치의 약 99.7%는 평균의 3 표준 편차(-3 ~ +3)에 해당합니다.

 

 

 


정규 분포 히스토그램

 


'Development > Big Data, R, ...' 카테고리의 다른 글

기초 통계량  (0) 2020.01.31
중위수(Median), 중앙값 , 2사분위수  (0) 2020.01.31
정규 분포(Normal Distribution)  (0) 2020.01.30
머신러닝 vs 통계학  (0) 2020.01.30
데이터 분석용 파이썬 패키지  (0) 2020.01.30
강화학습 도식도  (0) 2020.01.30
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

ndarray 클래스

·       N-dimensional Array

·       다차원 배열 n-차원 배열

·       2차원 배열은 행렬(matrix)이라고 하며 행렬의 가로줄을 행(row)이라고 하고 세로줄을 열(column)이라고 합니다

·       numpy 라이브러리에서는 ndarray라는 특별한 데이터 타입의 배열을 사용합니다.

·       random 라이브러리의 randint() 함수의 실수(real number) 버전이라고 생각할 수 있습니다.

·       numpy 라이브러리에서는 ndarray라는 특별한 데이터 타입의 배열을 제공합니다. 

 

 

<class 'numpy.ndarray'>

 

 


'Development > Python' 카테고리의 다른 글

Python 데이터 분석 절차  (0) 2020.01.31
Set Comprehension  (0) 2020.01.30
ndarray 클래스  (0) 2020.01.30
numpy 불린 인덱싱 (boolean indexing)  (0) 2020.01.29
리스트 내장(리스트 내포; List comprehension) 형식  (0) 2020.01.29
집합 자료형 관련 함수  (0) 2020.01.29
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

머신러닝 vs 통계학

 

index

description

통계

(Statistics)

·         관심있는 프로세스 자체의 분포를 밝혀내서 해당 프로세스를 과학적으로 이해하는 것이 목적

·         사람이 만든 가설의 검증이 목적

·         표본 데이터를 이용하여 모집단에 대해 추론

 

기계학습

(Machine Learning)

·         프로세스 자체를 이해하지는 못하더라도 명확한 goal(주로 prediction) 가지고 goal 최적화된 working 모델을 만드는 강조하는

·         기존 데이터로 모델을 학습시킨 후 새로운 데이터를 입력 했을 때 예측값을 알아내기 위한 목적

·         데이터로부터 가설을 만들어내는 과정

·         전체데이터를 이용해 개별값 예측(prediction)

 

공통점

·         데이터로부터 insight 얻거나 prediction합니다.

·         요즘은 분야가 서로의 툴들을 가져다가 써서 차이가 많이 모호지고 있습니다.

·         통계학의 예측영역에 머신러닝 기법이 쓰인다고 있습니다.


'Development > Big Data, R, ...' 카테고리의 다른 글

중위수(Median), 중앙값 , 2사분위수  (0) 2020.01.31
정규 분포(Normal Distribution)  (0) 2020.01.30
머신러닝 vs 통계학  (0) 2020.01.30
데이터 분석용 파이썬 패키지  (0) 2020.01.30
강화학습 도식도  (0) 2020.01.30
값이 누락된 데이터 처리  (0) 2020.01.30
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

데이터 분석용 파이썬 패키지

·         다양한 파이썬 패키지를 사용하여 데이터 분석을 있습니다.   

·         패키지에는 Ipython, Numpy, Scipy, Pandas, Matplotlib, Beautiful Soup 데이터 분석과 시각화를 위한 다양한 라이브러리를 제공하며 적은 코드만으로 많은 기능을 만들 있습니다.

 

 

패키지

분석 기능

Jupyter Notebook

·         브라우저 기반의 대화식 프로그래밍 환경을 제공해 줍니다.

Matplotlib

·         다양한 플롯

·         그래프나 시각화 표현을 위해 사용되는 2D 플롯팅 라이브러리로서 출판물 수준의 그래픽을 생성

NumPy

·         과학계산을 위한 기본적인 라이브러리

·         기본 자료구조보다 빠르고 효율적인 다차원배열 객체를 제공합니다.

·         선형대수, 선형대수와 해석기하

·         벡터와 행렬의 연산

·         연립방정식과 역행렬

·         행렬의 분해

Pandas

·         데이터 탐색

·         효과적인 데이터 분석을 위한 고수준의 자료구조와 시계열 기능

·         시각화 기능

Seaborn

·         데이터 분포 시각화

scikit-learn

·         머신러닝 라이브러리

TensorFlow

·         딥러닝 모형을 위한 파이썬 라이브러리

Keras

·         TensorFlow 패키지를 쉽게 사용할 있도록 도와주는 고수준 패키지

...

 

 


'Development > Big Data, R, ...' 카테고리의 다른 글

정규 분포(Normal Distribution)  (0) 2020.01.30
머신러닝 vs 통계학  (0) 2020.01.30
데이터 분석용 파이썬 패키지  (0) 2020.01.30
강화학습 도식도  (0) 2020.01.30
값이 누락된 데이터 처리  (0) 2020.01.30
데이터 교정  (0) 2020.01.29
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

 

강화학습 도식도

·         칭찬을 받은 행위(보상) 더욱 많이 하고, 벌을 받을만한 행위는 줄이는 것과 마찬가지로 적응성을 통해 학습을 강화해갑니다. 학습의 결과가 즉각적으로 나타나는 경우에 효과적이라고 있습니다.

·         Agent(행위자) Action(행위) World(Environment; 환경) 영향을 줍니다. 특정 액션은 환경의 상태(State) 변화시키고이에 따라 에이전트는 보상(Reward) 받게 됩니다.

 


'Development > Big Data, R, ...' 카테고리의 다른 글

머신러닝 vs 통계학  (0) 2020.01.30
데이터 분석용 파이썬 패키지  (0) 2020.01.30
강화학습 도식도  (0) 2020.01.30
값이 누락된 데이터 처리  (0) 2020.01.30
데이터 교정  (0) 2020.01.29
다중 공선성(multicollinarity)  (0) 2020.01.29
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

값이 누락된 데이터 처리

누락 데이터 삭제 또는 추정해서 채우기 합니다.

 

구분

처리방법

데이터가 충분한 경우

값이 누락된 데이터를 제거합니다.

데이터가 제한적일 경우

누락된 값을 대표값을 추정해서 채웁니다.

 

 

 

 

 


 

 

 

<전처리 >

 

이름

나이

몸무게

거주지

홍길동

39

160cm

 

50kg

서울

도레미

27

175cm

NA

부산

이순신

25

NA

62kg

수원

 

 



 

 

<전처리 >

이순신의 : (175+160)/2 = 167.5

도레미의 몸무게: (50+62)/2 = 56

 

이름

나이

몸무게

거주지

홍길동

39

160cm

 

50kg

서울

도레미

27

175cm

56

부산

이순신

25

167.5

62kg

수원

 

 


'Development > Big Data, R, ...' 카테고리의 다른 글

데이터 분석용 파이썬 패키지  (0) 2020.01.30
강화학습 도식도  (0) 2020.01.30
값이 누락된 데이터 처리  (0) 2020.01.30
데이터 교정  (0) 2020.01.29
다중 공선성(multicollinarity)  (0) 2020.01.29
F1지표(F1 score) 예시 2  (0) 2020.01.29
Posted by codedragon codedragon

댓글을 달아 주세요