- 0
- 이니스프리
- 조회 수 443
주말에 mlbpark.com 크롤링을 연습해봤네요.
여러 방법으로 Requests를 이용한 크롤링을 막아놓았더군요.
제가 실력이 없어서 그런 것인지는 모르겠지만 헤더를 올바르게 넣어줘도 이미지 크롤링을 하려면 400대 에러가 뜨더군요.
정확한 이유는 모르겠지만 Requests_HTML을 이용하니 이 문제가 해결되네요 ^^
render를 하지 않았는데도 Requests_HTML을 사용하는 것 자체만으로 해결되는 것을 봐서는, 아마도 Requests 모듈 자체를 감지하는 어떤 기능을 탑재한 것으로 추측됩니다.
크롤링하려는 분들께서 참고가 되셨으면 좋겠습니다.
작성자
댓글 0
권한이 없습니다.