달력

2

« 2020/2 »

  •  
  •  
  •  
  •  
  •  
  •  
  • 1



 

 

비편향(Unbiased)

결과값이 어느 쪽으로 치우치지 않아 모집단을 대표할 있습니다.

 


Posted by codedragon codedragon

댓글을 달아 주세요



 

 

시계열 데이터(자료)

·       증권사이트의 주식 그래프

·       국민총생산, 물가지수, 주가지수 등 경제활동과 관련된 시계열

·       일일 강수량, 기온, 연간 지진 발생 수 등 물리적 현상과 관련된 시계열

·       상품판매량, 상품광고액, 상품재고량 등 경영활동과 관련된 시계열

·       총인구, 농가 수, 인구증가율 등 인구와 관련된 시계열

·       품질관리 등 생산관리와 관련된 시계열

·       월별 교통사고 건수, 월별 범죄발생 수 등 사회생활과 관련된 시계열

·      

 


'Development > Big Data, R, ...' 카테고리의 다른 글

예측 기법 고려요소  (0) 2020.02.12
비편향(Unbiased)  (0) 2020.02.11
시계열 데이터(자료) 예  (0) 2020.02.11
머신러닝 모델의 결과 산출물 작성 및 검수  (0) 2020.02.11
k-fold 교차검증 수행 단계  (0) 2020.02.11
Bayes' Theorem proof  (0) 2020.02.11
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

iris 컬럼 정보

속성

설명

Sepal Length

꽃받침의 길이에 대한 정보입니다.

Sepal Width

꽃받침의 너비에 대한 정보입니다.

Petal Length

꽃잎의 길이 정보입니다.

Petal Width

꽃잎의 너비에 대한 정보입니다.

Class

꽃의 종류 정보인데 Setosa / Versicolor / Virginica 3종류로 구분되며 이는 곧 같은 세가지 종류의 붓꽃으로 분류된 데이터 결과를 보여주는 것입니다.

 

 


'Development > Python' 카테고리의 다른 글

DatetimeIndex()  (0) 2020.02.12
시계열 데이터 다루기  (0) 2020.02.12
iris 컬럼 정보  (0) 2020.02.11
pivot_table()  (0) 2020.02.11
groupby()  (0) 2020.02.11
그룹 분석  (0) 2020.02.11
Posted by codedragon codedragon

댓글을 달아 주세요

2020. 2. 11. 17:03

pivot_table() Development/Python



 

 

pivot_table()

groupby() 메소드처럼 그룹 분석을 하지만 pivot()메소드처럼 피봇테이블을 만들어줍니다

  

 

pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, margins_name='All')

 

인자

설명

data

·       분석할 데이터프레임

·       pivot_table() 멤버메서드로 사용할 때는 객체 자체가 데이터가 되므로 data 인수가 필요하지 않습니다.

values

·       분석할 데이터프레임에서 분석할 열

index

·       인덱스로 들어갈 키 열 또는 키 열의 리스트

columns

·       인덱스로 들어갈 키 열 또는 키 열의 리스트

aggfunc

·       분석 메서드

·       만약 조건에 따른 데이터가 유일하게 선택되지 않으면 그룹 연산을 하며 이 때 aggfunc 인수로 정의된 함수를 수행하여 대표값을 계산합니다.

fill_value

·       NaN 대체

margins

·       오른쪽과 아래에 합계항목을 보여줄지 여부를 지정

 

margins=True: 합계 항목 출력

margins_name

·       합계 ()의 이름 지정

·       margins=True 인 경우 합계 항목의 이름을 지정합니다.

 

 




'Development > Python' 카테고리의 다른 글

시계열 데이터 다루기  (0) 2020.02.12
iris 컬럼 정보  (0) 2020.02.11
pivot_table()  (0) 2020.02.11
groupby()  (0) 2020.02.11
그룹 분석  (0) 2020.02.11
피봇 테이블 생성  (0) 2020.02.11
Posted by codedragon codedragon

댓글을 달아 주세요

2020. 2. 11. 16:00

groupby() Development/Python


 

 

groupby()

·       데이터를 그룹 별로 분류하는 역할을 합니다.

·       groupby() 반환값은 그룹 데이터를 나타내는 GroupBy 클래스 객체를 반환합니다.

·       GroupBy 객체에는 그룹별로 연산을 할 수 있는 다양한 그룹 연산 메서드를 제공합니다.

 

DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)

 


 

 

https://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.DataFrame.groupby.html

 

 

 

 

 

그룹 연산 메서드

GroupBy 클래스 객체의 뒤에 붙일 수 있는 그룹 연산 메서드입니다.

 

메소드

설명

size()

·       갯수

count()

·       갯수

mean()

·       평균

median()

·       중앙값

min()

·       최소

max()

·       최대

sum()

·       합계

prod()

·      

std()

·       표준편차

var()

·       분산

quantile()

·       사분위수

first()

·       가장 첫번째 데이터

last()

·       가장 나중 데이터

agg()

or

aggregate()

·       원하는 그룹 연산이 없는 경우 함수를 만들고 이 함수명를 agg()에 전달합니다.

·       여러가지 그룹 연산을 동시에 하고 싶은 경우 함수 이름 문자열의 리스트를 전달합니다.

describe()

·       하나의 그룹 대표값이 아니라 여러개의 값을 데이터프레임으로 구합니다.

·       다양한 기술 통계(descriptive statistics)값을 한 번에 확인할 수 있습니다.

·       그룹별로 하나의 스칼라 값이 아니라 여러 항목으로 구성된 하나의 데이터프레임이 생성된다는 점에 주의해야 합니다.

apply()

·       describe() 처럼 하나의 대표값이 아닌 데이터프레임을 출력하지만 원하는 그룹 연산이 없는 경우에 사용합니다.

·       apply() 메서드를 사용하면 하나의 그룹에 대해 하나의 대표값(스칼라 값)을 구하는 게 아니라 describe() 메서드처럼 그룹별로 데이터프레임을 만들어 줍니다.

transform()

·       그룹에 대한 대표값을 만드는 것이 아니라 그룹별 계산을 통해 데이터 자체를 변형합니다.

·       transform() 메서드는 그룹별 대표값을 만드는 것이 아니라 그룹별 계산을 통해 데이터 값 자체를 반환시킵니다. 따라서 만들어진 데이터프레임의 크기는 원래 데이터프레임과 같습니다.

 

https://pandas.pydata.org/pandas-docs/stable/api.html#groupby

 



'Development > Python' 카테고리의 다른 글

iris 컬럼 정보  (0) 2020.02.11
pivot_table()  (0) 2020.02.11
groupby()  (0) 2020.02.11
그룹 분석  (0) 2020.02.11
피봇 테이블 생성  (0) 2020.02.11
swaplevel()  (0) 2020.02.11
Posted by codedragon codedragon

댓글을 달아 주세요

2020. 2. 11. 15:59

그룹 분석 Development/Python


 

 

그룹 분석

·       특정 조건에 맞는 데이터가 하나 이상 즉, 그룹을 이루는 경우애는 그룹 분석을 할 있습니다.

·       피봇 테이블은 인덱스와 열 인덱스는 유일하게(unique) 키로 결정되어야 하는 이와 달리 키에 의해서 결정되는 데이터가 여러개가 있어도 괜찮습니다.

·       그룹 분석은 주어진 연산을 통해 그룹 데이터의 대표값을 정하게 됩니다.

 

 

 

Pandas 그룹 분석

Pandas에서는 groupby()메소드와 그룹 연산 메서드를 이용하여 그룹 분석을 수행합니다.

 

단계

설명

1

분석하고자 하는 시리즈나 데이터프레임에 groupby() 메서드를 호출하여 그룹화를 합니다.

2

그룹 객체에 대해 그룹 연산을 수행합니다.

 


'Development > Python' 카테고리의 다른 글

pivot_table()  (0) 2020.02.11
groupby()  (0) 2020.02.11
그룹 분석  (0) 2020.02.11
피봇 테이블 생성  (0) 2020.02.11
swaplevel()  (0) 2020.02.11
pandas_datareader 패키지  (0) 2020.02.11
Posted by codedragon codedragon

댓글을 달아 주세요



 

 

피봇 테이블 생성

피봇 테이블 생성은 pivot() set_index() unstack() 사용하여 만들수 있습니다.

 

 

·       pivot()

·       set_index() unstack()

 


'Development > Python' 카테고리의 다른 글

groupby()  (0) 2020.02.11
그룹 분석  (0) 2020.02.11
피봇 테이블 생성  (0) 2020.02.11
swaplevel()  (0) 2020.02.11
pandas_datareader 패키지  (0) 2020.02.11
df.groupby()  (0) 2020.02.11
Posted by codedragon codedragon

댓글을 달아 주세요

2020. 2. 11. 14:52

swaplevel() Development/Python



 

 

 

swaplevel()

다중 인덱스에 설정된 인덱스의 순서를 꿀때 사용합니다.

 

 

DataFrame.swaplevel(self, i=-2, j=-1, axis=0)

 

parameter

description

i, j

교환하고자 하는 인덱스 라벨(or 인덱스 번호) 지정합니다.

axis

/열을 지정합니다.

value

description

axis=0

행 인덱스

default

axis=1

열 인덱스

 

 

 

 

http://bit.ly/2OERrLj


'Development > Python' 카테고리의 다른 글

그룹 분석  (0) 2020.02.11
피봇 테이블 생성  (0) 2020.02.11
swaplevel()  (0) 2020.02.11
pandas_datareader 패키지  (0) 2020.02.11
df.groupby()  (0) 2020.02.11
date_range()  (0) 2020.02.11
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

pandas_datareader 패키지

 

 

DataReader

DataReader 사용하면 일부 인터넷 사이트의 자료를 바로 pandas로 읽어들일 수 있습니다. pandas_datareader 패키지는 판다스와 별도로 설치해야 합니다.

 

 

pandas_datareader 패키지 제공 인터넷 사이트

pandas_datareader 패키지가 제공하는 인터넷 사이트의 예시입니다.

일부 인터넷 사이트는 유료이므로 별도의 가입절차를 거쳐야 사용할 있습니다.

 

·       Google Finance

·       Morningstar

·       IEX

·       Robinhood

·       Enigma

·       Quandl

·       St.Louis FED (FRED)

·       Kenneth Frenchs data library

·       World Bank

·       OECD

·       Eurostat

·       Thrift Savings Plan

·       Nasdaq Trader symbol definitions

·       Stooq

·       MOEX

 

 

 

 

DataReader(data_source)

 

 

parameter

description

data_source

데이터를 읽어올 웹 사이트를 데이터 코드로 지정합니다.

 

 

 

 

 

 

Remote Data Access

https://pandas-datareader.readthedocs.io/en/latest/remote_data.html


 



'Development > Python' 카테고리의 다른 글

피봇 테이블 생성  (0) 2020.02.11
swaplevel()  (0) 2020.02.11
pandas_datareader 패키지  (0) 2020.02.11
df.groupby()  (0) 2020.02.11
date_range()  (0) 2020.02.11
pandas 주요 메소드  (0) 2020.02.11
Posted by codedragon codedragon

댓글을 달아 주세요

2020. 2. 11. 10:59

df.groupby() Development/Python


 

 

df.groupby()

그룹을 생성합니다.

 

 

DataFrame.groupby(self, by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)

 

 

인자

설명

as_index

as_index=True 기본값

as_index=False 생성된 그룹 정보옆에 새로운 index를 만들어 줍니다.

 

df.groupby ("기준이 컬럼명") 통해 특정열이 아닌, df 모든 열에 대해서 통계량을 계산할 수 있습니다.

df.groupby ("기준이 컬럼명").함수()

 

 

key1열의 값을 가지는 행들의 평균을 산출해줍니다.

df.groupby("key1").mean()

 

 

key1열의 값을 가지는 행들의 갯수를 세서 산출해줍니다.

df.groupby("key1").count()

 

 

 

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html

 


'Development > Python' 카테고리의 다른 글

swaplevel()  (0) 2020.02.11
pandas_datareader 패키지  (0) 2020.02.11
df.groupby()  (0) 2020.02.11
date_range()  (0) 2020.02.11
pandas 주요 메소드  (0) 2020.02.11
text file, read_table()  (0) 2020.02.11
Posted by codedragon codedragon

댓글을 달아 주세요