- 0
- 이니스프리
- 조회 수 578
※ 법적 문제의 소지가 있어 구체적인 스크립트는 기재하지 않습니다.
CGV 홈페이지에서 새로운 날짜의 티켓이 오픈하였는지 여부를 크롤링하여
원하는 좌석을 예매하려는 분들이 많이 계시는 것으로 알고 있습니다.
구글링해보면 CGV 홈페이지가 개편된 이후에 Python Requests로 크롤링하는 것이 막혔다는 취지의 글들이 있습니다.
하지만 여전히 Selenium을 사용하지 않고도 가능합니다!!
제 사견으로는 Requests로 크롤링이 가능한 웹페이지를 Selenium으로 크롤링한다면,
빈대를 잡으려 초가삼간을 태우는 격으로서 사실상 크롤링에 실패한 것으로 봅니다.
크롤링 방법에 대한 요지를 말씀드리면 다음과 같습니다.
(URL 생략) GetScheduleSearchKey에 POST 전송을 할 때 headers를 적절히 넣는 것이 핵심입니다.
특히 cookies 관련하여 ASP.NET_SessionId를 다른 URL에서 받아오던지 해서 잘 넣어줘야 합니다.
URL_PREV_COMMON은 꼼꼼하게 보지 않으므로 적당히 넣어주면 됩니다.
참고로 최근에 홈페이지가 개편된 사이트 중 상당수는 cookies를 조작하면 여전히 Requests로 크롤링이 가능합니다.
(ex. 교보문고)
그리고 기술적이라기보다는 실무적인 문제에 가깝지만 CGV 측에서 간혹 날짜를 건너뛰어서 티켓을 오픈하는 경우가 있습니다.
예컨대 2023. 8. 7. 시점에서 2023. 8. 14.부터 2023. 8. 21.까지의 티켓 및 2023. 8. 28.일 자의 티켓이 오픈되는 경우가 있습니다.
단순히 예매 가능한 마지막 날짜만 크롤링하여 받아오면 2023. 8. 23.일 자의 영화를 예매하려고 할 때 낭패를 볼 수 있으니 참고하세요 ^-^