- 0
- 이니스프리
- 조회 수 281
rsp = s.get(url, headers = headers).text removed = rsp.split('\n', 1)[-1] # 첫번째 줄을 제거합니다. json_removed = json.loads(removed)
네이버 블로그 크롤링할 때 PostList.nhn을 requests로 get할 때 관련된 팁입니다.
1. 헤더를 확인하니 잘 넣어야 합니다.
2. .text로 받아야 합니다. .content는 안 됩니다.
3. get으로 받으면 첫번째 행은 더미 텍스트가 들어가 있습니다.
아마도 JSON 파싱을 바로 못 하게 하려는 취지로 삽입한 것으로 추측됩니다.
이걸 제거해야 JSON 파싱이 가능합니다.
작성자
댓글 0
권한이 없습니다.