달력

2

« 2020/2 »

  •  
  •  
  •  
  •  
  •  
  •  
  • 1


 

Scraping 하는 이유

·       특히 소셜 데이터 가져오기위해

·       외부로 내보내는 기능이 없는 시스템에서 데이터 가져오기위해

·       특정 사이트를 모니터링하여 새로운 정보를 탐지하기위해

·       검색엔진의 데이터베이스를 구축하기 위해

·      

 


'Development > Python' 카테고리의 다른 글

os 내장 모듈  (0) 2020.02.26
reduce()  (0) 2020.02.26
Scraping을 하는 이유  (0) 2020.02.25
Web Scraping 도식도  (0) 2020.02.25
Web Scraping  (0) 2020.02.25
Response 객체의 주요 메소드  (0) 2020.02.25
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

Web Scraping 도식도

·       크롤러(Crawler) 통해 페이지를 읽어들이고 각각의 페이지를 저장소에 저장하는 과정을 거집니다.

·       Crawler를 통해 실행된 결과를 저장장치인 데이터베이스에 저장됩니다.

 


 


'Development > Python' 카테고리의 다른 글

reduce()  (0) 2020.02.26
Scraping을 하는 이유  (0) 2020.02.25
Web Scraping 도식도  (0) 2020.02.25
Web Scraping  (0) 2020.02.25
Response 객체의 주요 메소드  (0) 2020.02.25
requests 패키지  (0) 2020.02.25
Posted by codedragon codedragon

댓글을 달아 주세요

2020. 2. 25. 18:23

Web Scraping Development/Python


 

 

Web Scraping

·       크롤링(crawling)

·       웹페이지를 대상으로 이뤄지기 때문에  스크래핑 크롤링(Web Crawling)  웹스파이더링(Web Spidering) HTML 파싱(HTML Parsing)이라고 합니다.

·       Web에서 전문적으로 정보를 수집해주는 프로그램을 (로봇)이라고 합니다.

·       웹사이트에서 HTML을 읽어와 필요한 데이터를 긁어오는 것을 말합니다.

·       검색엔진도 웹 페이지를 스크래핑합니다.

·       수집된 데이터를 통해 다양한 작업을 있습니다.

 

 

https://en.wikipedia.org/wiki/Web_scraping

https://en.wikipedia.org/wiki/Web_crawler

 


'Development > Python' 카테고리의 다른 글

Scraping을 하는 이유  (0) 2020.02.25
Web Scraping 도식도  (0) 2020.02.25
Web Scraping  (0) 2020.02.25
Response 객체의 주요 메소드  (0) 2020.02.25
requests 패키지  (0) 2020.02.25
HTTP 요청 방식에 따른 방법  (0) 2020.02.25
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

Response 객체의 주요 메소드

메소드

설명

raise_for_status()

·         Response 객체에서 에러 발생했을 경우 프로그램을 중단하도록 raise_for_status() 메서드를 호출합니다.

json()

·         json 포멧으로 반환합니다.

 

 


'Development > Python' 카테고리의 다른 글

Web Scraping 도식도  (0) 2020.02.25
Web Scraping  (0) 2020.02.25
Response 객체의 주요 메소드  (0) 2020.02.25
requests 패키지  (0) 2020.02.25
HTTP 요청 방식에 따른 방법  (0) 2020.02.25
Response 객체  (0) 2020.02.25
Posted by codedragon codedragon

댓글을 달아 주세요

 

 

requests 패키지

·         HTTP 라이브러리 패키지

·         requests 패키지는 HTTP GET, POST, PUT, DELETE 등을 사용할 있으며, 편리한 데이터 인코딩 기능을 제공하고 있습니다.

·         requests 패키지는 데이터를 Dictionary 타입으로 GET, POST 등을 수행하며 이때 필요한 Request 인코딩을 자동으로 처리해 줍니다.

 

http://docs.python-requests.org/en/latest/index.html


 

 


'Development > Python' 카테고리의 다른 글

Web Scraping  (0) 2020.02.25
Response 객체의 주요 메소드  (0) 2020.02.25
requests 패키지  (0) 2020.02.25
HTTP 요청 방식에 따른 방법  (0) 2020.02.25
Response 객체  (0) 2020.02.25
urlib 패키지  (0) 2020.02.25
Posted by codedragon codedragon

댓글을 달아 주세요



 

 

HTTP 요청 방식에 따른 방법

·         GET 방식 요청

·         POST 방식 요청

 

 

 

 

 

 

GET 방식 요청

단계

설명

요청 수행

·         get방식으로 요청시 get()함수를 이용하여 해당 웹페이지 호출 결과를 가진 Response 객체를 리턴합니다.

 

req = requests.get(url)

 

 

 

 

 

 

POST 방식 요청

단계

설명

요청 객체 생성

·         Request 객체를 생성하여 사용합니다.

·         준비된 요청을 Request객체로 생성합니다.

 

req = Request('POST', url, data=payload, headers=headers)

prepped = req.prepare()

세션객체를 통해 요청 수행

·         세션을 통해 준비된 요청을 전달합니다.

 

s = Session()

res = s.send(prepped)

 

 


'Development > Python' 카테고리의 다른 글

Response 객체의 주요 메소드  (0) 2020.02.25
requests 패키지  (0) 2020.02.25
HTTP 요청 방식에 따른 방법  (0) 2020.02.25
Response 객체  (0) 2020.02.25
urlib 패키지  (0) 2020.02.25
인코딩함수  (0) 2020.02.25
Posted by codedragon codedragon

댓글을 달아 주세요

2020. 2. 25. 17:49

Response 객체 Development/Python



 

 

Response 객체

Response 객체는 HTML Response 관련된 여러 attribute들을 가지고 있습니다.

 

attribute

설명

status_code

·         HTTP Status 결과인 응답코드를 확인 있습니다.

text

·         Response 에서 리턴된 데이타를 문자열로 리턴하는  속성

content

·         Response 데이타를 바이트(bytes) 리턴하는  속성

headers

·         Response 객체의 헤더정보

·         dict타입으로 반환됩니다.

encoding

·         인코딩 정보 확인

 

 

 

 


'Development > Python' 카테고리의 다른 글

requests 패키지  (0) 2020.02.25
HTTP 요청 방식에 따른 방법  (0) 2020.02.25
Response 객체  (0) 2020.02.25
urlib 패키지  (0) 2020.02.25
인코딩함수  (0) 2020.02.25
HTML 파일  (0) 2020.02.25
Posted by codedragon codedragon

댓글을 달아 주세요

2020. 2. 25. 17:46

urlib 패키지 Development/Python


 

 

urlib 패키지

·       파이썬에 기본적으로 내장되어 있는 패키지 입니다.

·       Socket으로 페이지를 불러오는 라이브러리입니다.

·       웹과 관련된 데이터를 쉽게 다룰 있게 줍니다.

·       urlib 패키지는 4개의 모듈로 구성되어 있습니다.

 

module

설명

urllib.request

URL 오픈하고 읽어옵니다.

urllib.error

urllib.request 생성된 예외처리 합니다.

urllib.parse

URL 파싱합니다.

urllib.robotparser

robots.txt file 대한 파싱을 처리합니다.

 

 

https://docs.python.org/3/library/urllib.html

 


'Development > Python' 카테고리의 다른 글

HTTP 요청 방식에 따른 방법  (0) 2020.02.25
Response 객체  (0) 2020.02.25
urlib 패키지  (0) 2020.02.25
인코딩함수  (0) 2020.02.25
HTML 파일  (0) 2020.02.25
: IdNamed Placeholder  (0) 2020.02.25
Posted by codedragon codedragon

댓글을 달아 주세요

2020. 2. 25. 17:41

인코딩함수 Development/Python


 

 

 

ord()

각각의 문자에 대한 아스키(ASCII) 코드 값을 확인할 수 있습니다

 

 

 

 

 

encode()

문자열을 byte 배열 인코딩합니다.

 

str.encode(encoding="utf-8", errors="strict")

https://docs.python.org/3/library/stdtypes.html#str.encode

 

 

 

 

 

decode()

byte 배열을 받아서 문자열 디코딩합니다.

 

bytes.decode(encoding="utf-8", errors="strict")

https://docs.python.org/3/library/stdtypes.html#bytes.decode

 

 

 

 


'Development > Python' 카테고리의 다른 글

Response 객체  (0) 2020.02.25
urlib 패키지  (0) 2020.02.25
인코딩함수  (0) 2020.02.25
HTML 파일  (0) 2020.02.25
: IdNamed Placeholder  (0) 2020.02.25
PyMySql Module 설치  (0) 2020.02.25
Posted by codedragon codedragon

댓글을 달아 주세요

2020. 2. 25. 17:36

HTML 파일 Development/Python


 

 

 

HTML 파일

·       HTML 정보를 사람이 읽을 있는 형태로 웹에서 표현하려고 사용하는 마크업 언어로 만들어진 파일입니.

·       정형 문서

 


'Development > Python' 카테고리의 다른 글

urlib 패키지  (0) 2020.02.25
인코딩함수  (0) 2020.02.25
HTML 파일  (0) 2020.02.25
: IdNamed Placeholder  (0) 2020.02.25
PyMySql Module 설치  (0) 2020.02.25
MySql 쿼리 수행 메소드  (0) 2020.02.25
Posted by codedragon codedragon

댓글을 달아 주세요