Recent Posts
Recent Comments
Link
Today
Total
04-15 14:43
관리 메뉴

Hippo's data

[서평] 파이썬으로 웹 크롤러 만들기(라이언 미첼 저/최경현 역/한빛미디어) 본문

Book

[서평] 파이썬으로 웹 크롤러 만들기(라이언 미첼 저/최경현 역/한빛미디어)

Hippo's data 2025. 3. 24. 01:34
728x90

 "한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."

 

오늘은 한빛미디어에서 발간한 '파이썬으로 웹 크롤러 만들기(3판)' 책 서평을 작성해보겠습니다!!

 

# 웹 크롤링(crawling)? 웹 스크래핑(Scraping)? 

웹 크롤링(crawling), 웹 스크래핑(Scraping) 두 용어 모두 웹 상에서 데이터를 수집하는 것을 의미하는데요

의미적으로는 약간의 차이를 보입니다

웹 크롤링(crawling)은 더 넓은 범위에서 대량의 데이터를 수집하는 것을 의미하며

웹 스크래핑(Scraping)좁은 법위에서 특정한 데이터를 좀 더 정확하고 구조화된 형식으로 수집하는 것을 의미합니다

 

# 웹 스크래핑(Scraping)이 중요한 이유?

데이터 분석, 모델링 작업시에는 요리할 재료 즉, 학습 or 분석 데이터가 중요한데욥

분석, 모델링에 대해 배울 때는 주어진 예제 데이터를 가지고 연습하는 경우가 많아 데이터 수집에 관해서는 경시하는 경우가 종종 있습니다 특히나 캐글이나 데이콘과 같은 모델링 대회에서는 수집된 데이터가 주어지기 때문에 데이터 수집과정에 대해서는 잘 모르는 경우가 있는데요

하지만 "garbage in, garbage out (GIGO)" 이라는 유명한 문구에서도 알 수 있듯이 모델링, 데이터 분석과정에 쓰이는 데이터의 퀄리티가 매우 중요한데욥 

특히 현업 프로젝트에서는 데이터가 거의 주어지지 않은 경우가 태반이므로 직접 데이터를 수집해야 하며,

데이터 수집 및 전처리 작업이 80%이상을 차지한다고 할 만큼 데이터 수집과정이 매우 중요한 것을 알 수 있습니다! 

 

# 책 구성

위 책에서는 웹 크롤링(crawling), 웹 스크래핑(Scraping) 두 방식을 이용한  데이터 수집 테크닉에 대해 설명합니다

특히 파이썬(python) 프로그래밍 언어를 이용하여 예제 코드를 제공하며 직접 실습도 진행해 볼 수 있습니답

 

책은 총 2 파트로 나뉘어 있는데욥

첫 번째 파트에서는 기본적인 웹 데이터 수집 가이드를 제공하는데요

웹의 기본 개념부터   

웹 데이터 수집 라이브러리인 BeautifulSoup, Scrapy에 대해 다루며 

특히 웹상에서 데이터 수집하는 것에 여러 법안과 사례를 통해 윤리적인 측면도 다루고 있습니다

 

두 번째 파트에서는 고급 단계로 간단한 웹 데이터 수집을 넘어서 

복잡한 작업, 더 큰 규모로 수집하는 방법, 병렬처리, 자연어처리, 이미지 처리 등 좀 더 심화된 수집 방법에 대해 다룹니다


[PART 1 웹 스크레이퍼 제작]
CHAPTER 1 인터넷 작동 원리
CHAPTER 2 웹 스크레이핑의 합법성과 윤리
CHAPTER 3 웹 스크레이핑 활용 분야
CHAPTER 4 첫 번째 웹 스크레이퍼
CHAPTER 5 고급 HTML 분석
CHAPTER 6 크롤링 시작하기
CHAPTER 7 웹 크롤링 모델
CHAPTER 8 스크레이피
CHAPTER 9 데이터 저장

[PART 2 고급 스크레이핑]
CHAPTER 10 문서 읽기
CHAPTER 11 지저분한 데이터 다루기
CHAPTER 12 자연어 읽고 쓰기
CHAPTER 13 폼과 로그인 뚫기
CHAPTER 14 자바스크립트 스크레이핑
CHAPTER 15 API를 통한 크롤링
CHAPTER 16 이미지 처리와 텍스트 인식
CHAPTER 17 스크레이핑 함정 피하기
CHAPTER 18 스크레이퍼로 웹사이트 테스트하기
CHAPTER 19 병렬 웹 스크레이핑
CHAPTER 20 웹 스크레이핑 프록시

 

# 그래서 누구에게 추천하는가? 

이 책은 데이터 수집에 대해 전반적으로 공부할 수 있는 책입니다! 특히 

웹 데이터 수집에 대해 처음인 입문자부터 어느정도 지식이 있는 숙련자까지 모두 커버 가능합니다

하지만 파이썬(python) 언어를 전혀 모른다면 예제 코드를 이해하는 데 어려울 수 있으므로 파이썬(python) 언어에 대해 어느정도 지식이 있는 사람들에게 추천합니다

특히 실제 프로젝트를 진행하며 웹 상에서 데이터 수집이 필요한 경우 혹은 수집하는 과정에서 난관을 만난 경우 강추합니다! 

 

이 책의 일부 구절인데욥

 

"인터넷의 어디에서든, 어떤 형식이든, 어떤 타입의 데이터라도 가져올 수 있는 도구를 갖게 될 겁니다."

 

이 책을 통해 웹 상에서 원하는 정보를 가져오는 마법과 같은 능력을 경험하면 좋겠습니다! 

728x90