- 0
- 이니스프리
- 조회 수 837
PHP cURL을 이용하여 페이스북을 크롤링할 때에는 다음과 같은 점을 유의해야 하네요.
1.
"curl_setopt($ch, CURLOPT_HEADER, 1);" 또는 curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);
이렇게 헤더정보를 보내는 옵션을 꼭 넣어야 하네요.
이걸 넣지 않으면 봇으로 인식해서 브라우저를 업데이트하라는 메시지만 뜨고 크롤링을 막아버리네요 ㅠㅠ
트위터나 인스타는 이런 방식으로 막지 않는데 유독 페북만 막는군요.
다행히 페북도 user-agent 등을 확인해서 봇을 차단하는 것은 아니네요.
참고로 파이썬에서 requests나 urllib을 사용할 때에는 별다른 옵션없이 바로 크롤링이 가능합니다.
2.
페이스북 사이트는 자바스크립트가 작동되는 브라우저인지 확인을 하는군요 ㄷㄷ
이걸 우회하여 모든 내용에 접근하려면 m.facebook.com 또는 mobile.facebook.com으로 접속해야 되네요.
브라우저에서 자바스크립트를 끄고 바로 페북에 접속하면 막히지만,
모바일 페이지로 접속하면 뚫리는 것을 확인할 수 있어요.
다만 이 방법이 언제까지 가능할지는 모르겠네요.
작성자
댓글 0
권한이 없습니다.