• 목록
  • 아래로
  • 위로

PHP cURL을 이용하여 페이스북을 크롤링할 때에는 다음과 같은 점을 유의해야 하네요.


1. 


"curl_setopt($ch, CURLOPT_HEADER, 1);" 또는 curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);


이렇게 헤더정보를 보내는 옵션을 꼭 넣어야 하네요.


이걸 넣지 않으면 봇으로 인식해서 브라우저를 업데이트하라는 메시지만 뜨고 크롤링을 막아버리네요 ㅠㅠ


트위터나 인스타는 이런 방식으로 막지 않는데 유독 페북만 막는군요.


다행히 페북도 user-agent 등을 확인해서 봇을 차단하는 것은 아니네요.


참고로 파이썬에서 requests나 urllib을 사용할 때에는 별다른 옵션없이 바로 크롤링이 가능합니다.



2. 


페이스북 사이트는 자바스크립트가 작동되는 브라우저인지 확인을 하는군요 ㄷㄷ


이걸 우회하여 모든 내용에 접근하려면 m.facebook.com 또는 mobile.facebook.com으로 접속해야 되네요.


브라우저에서 자바스크립트를 끄고 바로 페북에 접속하면 막히지만,


모바일 페이지로 접속하면 뚫리는 것을 확인할 수 있어요.


다만 이 방법이 언제까지 가능할지는 모르겠네요.


작성자
이니스프리 119 Lv. (1%) 2392600/115200000EXP

Make StudyForUs Great Again!

 

CSVpuymXAAAVVpd.jpg

댓글 0

권한이 없습니다.
번호 제목 글쓴이 날짜 조회 수
공지 [작업 완료] 설 명절 맞이 서버 업데이트 안내 3 마스터 마스터 24.02.11.17:21 2204
공지 [중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 4 마스터 마스터 23.01.14.02:23 5884
556 HDMI 단자의 QHD 출력을 정식으로 지원하지 않는 NVIDIA 그래픽 카드로 QHD 60 Hz 해상도 출력하기 2 image 제르엘 제르엘 24.06.09.17:45 55
555 [Python] Youtube API를 사용하지 않고 특정 채널의 모든 비디오 URL을 가져오기 이니스프리 이니스프리 24.06.09.22:12 68
554 색상선택 결정문제를 겪고 계신 분들 위한 사이트 OAUTH2 20.06.19.18:22 75
553 database 백업 및 복원을 지원하는 site입니다. 해피보이 20.06.03.20:52 81
552 [Python] cannot import name 'TypeAliasType' from 'typing_extensions' 에러 대응방법 이니스프리 이니스프리 24.06.01.23:54 93
551 [펌] Chrome will soon be less of a memory hog in Windows 10 3 이니스프리 이니스프리 20.06.24.00:12 95
550 [Python] Ubuntu에서 파이썬이 설치된 디렉토리를 간단히 확인하는 방법 2 이니스프리 이니스프리 20.08.03.22:58 96
549 [VSCode] 1개의 OS에 VSCode 여러 개를 설치 및 구동하기 이니스프리 이니스프리 24.05.26.05:09 97
548 [Javascript] 값을 이용하여 배열의 요소를 삭제하는 방법 이니스프리 이니스프리 21.04.13.22:10 103
547 순수 React만으로 다이내믹 태그 네이밍하기 Seia Seia 20.01.20.19:18 105
546 React 그리고 Redux 쉽게 이해하기 image Seia Seia 20.09.12.06:31 115
545 [Python] 문자열에서 파일명 또는 폴더명으로 시스템상 지원되는 글자를 제외하고 삭제하기 이니스프리 이니스프리 20.11.01.14:37 116
544 나리야 익명보드 및 내 글 알림 관련 Q&A image 이니스프리 이니스프리 21.02.14.17:30 118
543 중국 배대지 휴무 이니스프리 이니스프리 20.01.14.13:01 119
542 [오프라인 강좌] 오픈소스 협업을 위한 Git 트레이닝 image 이니스프리 이니스프리 20.01.08.00:13 121
541 [카고야] 공지 메일이 왔네요~ 이니스프리 이니스프리 20.01.08.13:27 121
540 IPVanish의 한국서버가 4개로 확충되었습니다. image 이니스프리 이니스프리 20.01.11.11:27 121
539 [Python] 크롤링한 bytes를 string으로 변환 이니스프리 이니스프리 21.02.14.15:32 121
538 DHTML 에디터에서 Hard Break vs Soft Break 이니스프리 이니스프리 20.01.12.13:48 123
537 [Dropbox] 곧 시행될 세금 변경에 관한 중요한 알림 image 이니스프리 이니스프리 19.10.12.08:26 124