본문 바로가기

- ATELIER/도서

파이썬으로 웹 크롤러 만들기 #오레일리 #한빛미디어

반응형

파이썬으로 웹 크롤러 만들기 [2판] #오레일리 #한빛미디어

차근차근 보면서 따라하기 좋은 파이썬 웹크롤러 도서. 

웹크롤러는 URL에서 페이지를 가져오고, 페이지를 검사해 다른 URL을 찾고, 다시 그 페이지를 가져오는 작업을 무한히 반복한다. 웹크롤러로 웹의 방대한 자료를 필터링 없이 수집하게 되면 그에 따른 문제가 많이 발생한다. 이 책에서는 원하는 범위에서 원하는 데이터만을 가져오고 DB로 만드는 방법을 친절하게 설명해준다. 

파이썬의 기본을 설명해주기도 하지만 파이썬 기본서로는 사용하지 말것을 당부하고 있으니 주의하자. 

Part1에서는 다양한 라이브러리를 이용한 웹크롤러 만들기, API수집, 데이터를 DB로 저장, PDF·word파일 분석방법과 같은 웹크롤링 기초를 다루며 Part2에서는 데이터 정리, 자연어분석, 폼.로그인 뚫기 이미지 처리, 스크레이핑 함정 피하기 등의 고급 기법을 다루고 있다. 

오레일리의 다른 프로그래밍 책들과 같이 약간 원론적이며 지루하지만 개념이 알찬 책이라 생각했었다. 
이 책은 파이썬 초중급자 수준에 맞춰 쓰여져 기본에 충실하면서도 본문 내용이 정말 재미있다.
책을 읽어내려가며 '이걸로 ㅇㅇ에 응용해서 ㅇㅇ를 해보면 되겠다!' 같은 생각이 너무 많이 떠올라 매우 흥미로웠다. 

 

www.hanbit.co.kr/store/books/look.php?p_code=B5046562423

 

파이썬으로 웹 크롤러 만들기(2판) : 초간단 나만의 웹 크롤러로 원하는 데이터를 가져오는 방법

웹에 존재한다면 그것이 어떤 형태이든 데이터로 추출할 수 있다. 필요한 무기는 이 책과 파이썬뿐. BeautifulSoup, 셀레니움, 테서랙트 등 강력한 파이썬 라이브러리 사용법과 함께 API, 인증, 이미

www.hanbit.co.kr

공식 홈페이지에서 ~53page까지 미리 볼 수 있다. 

 

 

본 도서는 한빛미디어의 '나는리뷰어다' 10월 도서를 기증받아 본인의 의견으로 작성했습니다.

반응형
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."