반응형
파이썬으로 웹 크롤러 만들기 [2판] #오레일리 #한빛미디어
차근차근 보면서 따라하기 좋은 파이썬 웹크롤러 도서.
웹크롤러는 URL에서 페이지를 가져오고, 페이지를 검사해 다른 URL을 찾고, 다시 그 페이지를 가져오는 작업을 무한히 반복한다. 웹크롤러로 웹의 방대한 자료를 필터링 없이 수집하게 되면 그에 따른 문제가 많이 발생한다. 이 책에서는 원하는 범위에서 원하는 데이터만을 가져오고 DB로 만드는 방법을 친절하게 설명해준다.
파이썬의 기본을 설명해주기도 하지만 파이썬 기본서로는 사용하지 말것을 당부하고 있으니 주의하자.
Part1에서는 다양한 라이브러리를 이용한 웹크롤러 만들기, API수집, 데이터를 DB로 저장, PDF·word파일 분석방법과 같은 웹크롤링 기초를 다루며 Part2에서는 데이터 정리, 자연어분석, 폼.로그인 뚫기 이미지 처리, 스크레이핑 함정 피하기 등의 고급 기법을 다루고 있다.
오레일리의 다른 프로그래밍 책들과 같이 약간 원론적이며 지루하지만 개념이 알찬 책이라 생각했었다.
이 책은 파이썬 초중급자 수준에 맞춰 쓰여져 기본에 충실하면서도 본문 내용이 정말 재미있다.
책을 읽어내려가며 '이걸로 ㅇㅇ에 응용해서 ㅇㅇ를 해보면 되겠다!' 같은 생각이 너무 많이 떠올라 매우 흥미로웠다.
www.hanbit.co.kr/store/books/look.php?p_code=B5046562423
공식 홈페이지에서 ~53page까지 미리 볼 수 있다.
본 도서는 한빛미디어의 '나는리뷰어다' 10월 도서를 기증받아 본인의 의견으로 작성했습니다.
반응형
'- ATELIER > 도서' 카테고리의 다른 글
기사패스 2020 NCS 정보처리 기사 실기 문제집 (0) | 2020.11.21 |
---|---|
매일 스케치 자동차 (0) | 2020.10.25 |
Optimizing Java 자바 최적화 : 가장 빠른 성능을 구현하는 검증된 10가지 기법 (한빛미디어) (0) | 2020.09.27 |
혼자 공부하는 첫 프로그래밍 한빛미디어 혼공시리즈 with 파이썬 (혼공프로) (0) | 2020.08.13 |
한 권으로 끝내는 노션 Notion (0) | 2020.07.02 |