달력

3

« 2020/3 »

'2020/03/23'에 해당되는 글 2

  1. 웹 크롤링 정책
  2. mahout 명령어 옵션
반응형


 

 

웹 크롤링 정책

policy

description

selection policy

어떤 페이지를 다운로드할지를 정의합니다.

re-visit policy

페이지의 변화를 언제 확인할지를 정의합니다.

politeness policy

웹사이트 과부하를 어떻게 피할지를 정의합니다.

parallelization policy

분산된 웹 크롤러를 어떻게 조정할지를 정의합니다.

 

 


반응형

'Development > Python' 카테고리의 다른 글

DataFrame.drop(labels, axis)  (0) 2020.04.03
Identation를 사용한 JSON 문자열 표현  (0) 2020.03.28
웹 크롤링 정책  (0) 2020.03.23
Scraping 종류  (0) 2020.03.18
Jupyter notebook, 마크다운 셀(markdown cell)  (0) 2020.03.15
파이썬 표준 라이브러리  (0) 2020.03.12
Posted by codedragon codedragon

댓글을 달아 주세요

반응형


 

 

mahout 명령어 옵션

 

mahout fpg -i output.dat -o patterns -k 10 -s 2

 

 

옵션

설명

fpg

FPG(Frequent Pattern Growth) 알고리즘

-i

입력 파일

 

-i output.dat: output.dat 입력데이터 파일

-k

찾고자 하는 연관 아이템의 최대 갯수

 

-k 10: 연관 아이템 10개를 지정합니다.

-s

거래 아이템을 지정 갯수

 

-s 2: 거래 이상에 나타난 아이템을 지정한 것이다.

 

 

 

 


반응형
Posted by codedragon codedragon

댓글을 달아 주세요