doBy 패키지 함수 - summaryBy(), orderBy(), sampleBy()

CODEDRAGON Development/Big Data, R, ...

반응형

 

 

doBy 패키지 함수

특정 값에 따라 데이터를 처리하 함수들입니다.

함수

특징

summaryBy()

·       base 패키지 내의 summary( ) 함수와 대응되는 함수입니다.

·       데이터 프레임을 컬럼 값에 따라 그룹으로 묶은 요약 계산

·       그룹별로 그룹을 특징짓는 통계적 요약 값을 계산하는 함수

·       컬럼의 값을 특정 조건에 따라 요약하는 목적으로 사용합니다.

orderBy()

·       base 패키지 내의 order( ) 함수와 대응되는 함수입니다.

·       order() 유사하지만 정렬할 데이터를 포뮬러로 지정할 있다는 점이 편리합니다.

·       지정된 컬럼 값에 따라 데이터 프레임을 정렬합니다.

·       다른 함수들과 다르게 데이터를 그룹으로 묶는 기능은 없습니다.

 

sampleBy()

·       base 패키지 내의 sample( ) 함수와 대응되는 함수입니다.

·       데이터 프레임을 특정 컬럼 값에 따라 그룹으로 묶은 그룹에서 샘플(sample) 추출합니다.

 

 


summaryBy()

summaryBy( formula, data=parent.frame() )

formula 따라 데이터를 그룹으로 묶고 요약한 결과를 반환합니다.

 

인자

설명

formula

요약을 수행할 포뮬러(formula;수식)

처리할 데이터를 일종의 수학 공식처럼 표현합니다.

data=parent.frame()

포뮬러(formula) 적용할 데이터

 

 

 

 

orderBy()

orderBy( formula, data )

formula 따라 데이터를 그룹으로 묶고 요약한 결과를 반환합니다.

반환 값은 order() 동일합니다.

 

인자

설명

formula

정렬할 기준을 지정한 포뮬러(formula;수식)

~의 좌측은 무시하며, ~ 우측에 나열한 이름에 따라 데이터가 정렬됩니다.

data

포뮬러(formula) 적용할 데이터

 

 

 


sampleBy ()

sampleBy ( formula, frac=0.1, replace=FALSE, data=parent.frame(), systematic=FALSE )

formula 따라 데이터를 그룹으로 묶은 샘플을 추출합니다.

반환 값은 데이터 프레임합니다.

 

인자

설명

formula

그룹 기준을 지정한 포뮬러(formula;수식)

~ 우측에 나열한 이름에 따라 데이터가 그룹으로 묶여집니다.

frac=0.1

추출할 샘플의 비율

기본값은 10%

replace=FALSE

복원 추출 여부

data=parent.frame()

데이터를 추출할 데이터 프레임

systematic=FALSE

계통 추출(Systematic Sampling)을 사용할지 여부