8주차 리뷰

융보공 리뷰

8주차 리뷰

yooon81 2024. 5. 20. 16:17

크롤링

웹상의 특정 데이터를 자동으로 수집하는 프로세스

크롤링의 필요성: 대용량 데이터 수집, 가격 비교, 모니터링 등 다양한 활용

크롤링 활용

가격 비교 사이트: 여러 온라인 상점의 제품 가격 데이터 수집
뉴스 및 미디어 모니터링: 특정 키워드 관련 콘텐츠 수집 및 분석
데이터 분석 및 비즈니스 인텔리전스: 시장 동향, 고객 피드백 등분석
SEO(검색엔진최적화): 웹사이트 구조 및 콘텐츠 분석
리서치: 학술 연구, 경쟁사 분석 등

웹 크롤러 작동 원리

URL 관리
웹 페이지 다운로드
데이터 추출
링크 추출
데이터 저장
병렬화와 분산처리
정중성과 윤리
재시작과 복원

robots.txt : 웹사이트에서 크롤러의 접근을 제어하는 표준 파일

효과적인 크롤링 전략

정중한 크롤링: 웹 서버 부하 초소화를위해 적절한 지연시간 및 병렬처리 제한
병렬 크롤링: 여러 스레드/프로세스를 활용하여 크롤링 속도 향상
증분 크롤링: 새롭게 추가/변경된 데이터만 수집하여 중복 방지
우선순위 크롤링: 중요한 페이지부터 크롤링하는 전략
구조화된 크롤링: 사이트맵, RSS 피드 등 구조화된데이터 활용

BeautifulSoup 소개

Selenium 소개

크롤링 실습

https://creamerburger.tistory.com/32

- 장미 이미지 페이지 크롤링하기

- selenium을 이용한 이미지 여러 장 크롤링하기

- 보안뉴스 사이트 크롤링해서 csv 파일로 저장하기

- 보안뉴스 사이트에서 특정 검색어 넣어서 csv 파일로 저장하기

- chrome 드라이버를 사용해서 기획부장 블로그에 매크로 댓글 테러달기

- scrapy를 사용해서 병렬 크롤링 해보기

'융보공 리뷰' 카테고리의 다른 글

9주차 리뷰 (0)	2024.05.31
7주차 리뷰 (0)	2024.05.17
[2024.05.03] 7주차 리뷰 (0)	2024.05.10
4주차 리뷰 (0)	2024.05.05
4주차 리뷰 (0)	2024.04.08

현재글8주차 리뷰

yoons-study

Today :
Yesterday :

티스토리툴바