• 목록
  • 아래로
  • 위로

1. 인코딩의 문제


https://stackoverflow.com/questions/31126831/beautifulsoup-with-xml-fails-to-parse-full-unicode-strings


위 글을 참조하시면 좋을 것 같습니다.




2. 파서의 문제

출처: https://brownbears.tistory.com/414


제가 테스트해보니 html.parser를 사용해서 짤리는 경우에 html5lib를 사용하면 제대로 나오는 경우가 있습니다.


tbody 안의 tr 태그가 몇 개인지 체크하는 스크립트를 통해 테스트했는데, 


전자를 사용하면 1개로 나오는 것이 후자를 사용하면 6개로 정확히 나오더군요.


위 표에는 html5lib는 별도의 설치가 필요하다고 설명되어 있는데, 아나콘다 또는 미니콘다 환경에서는 이미 설치되어 있습니다 ^^


그리고 제가 테스트한 환경에서는 html.text와 html.content의 차이는 없는 것 같네요.


작성자
이니스프리 119 Lv. (0%) 1876250/115200000EXP

당분간 일신상의 사정으로 쪽지나 댓글로 답변을 드리기 어렵습니다. 죄송합니다.

 

CSVpuymXAAAVVpd.jpg

댓글 0

권한이 없습니다.
번호 제목 글쓴이 날짜 조회 수
공지 [작업 완료] 설 명절 맞이 서버 업데이트 안내 3 마스터 마스터 24.02.11.17:21 386
공지 [중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 4 마스터 마스터 23.01.14.02:23 4069
340 [파이썬] 딕셔너리의 키/값으로 정렬하기 이니스프리 이니스프리 20.02.02.23:25 195
339 [IPVanish] 809 에러 해결방법 이니스프리 이니스프리 20.02.02.17:10 222
338 Matrix DAC 발열 문제 이니스프리 이니스프리 20.01.31.12:34 174
337 JLPT 성적표 및 합격증 수령 주소 변경 이니스프리 이니스프리 20.01.29.21:51 163
336 Apple ID 미국 계정 만들기 및 로그인 실패시 해결방법(?) 이니스프리 이니스프리 20.01.26.20:14 254
335 더현대닷컴 vs Hmall의 차이 이니스프리 이니스프리 20.01.26.20:10 1063
334 다이소 스마트폰 유심 커터기 관련 4 이니스프리 이니스프리 20.01.22.17:15 623
333 텔레그램 비밀대화의 스크린캡쳐 방지기능 이니스프리 이니스프리 20.01.20.23:44 5847
332 Postman에서 Temporary Header는 비활성화할 수 없습니다. 3 image Seia Seia 20.01.20.19:31 226
331 순수 React만으로 다이내믹 태그 네이밍하기 Seia Seia 20.01.20.19:18 104
330 Sourcerer: Git을 비주얼라이징 및 프로파일링합니다. image Seia Seia 20.01.20.07:38 131
329 [우체국 택배] 수취인 수령장소 변경 서비스 이니스프리 이니스프리 20.01.19.23:08 260
328 TCP BBR을 사용하여 기존 TCP 구현보다도 훨씬 빠른 속도를 즐기는 방법 2 image Seia Seia 20.01.19.07:01 154
327 Vultr.com - 오늘자 Service Alert 이니스프리 이니스프리 20.01.17.22:02 171
326 중국 배대지 휴무 이니스프리 이니스프리 20.01.14.13:01 112
325 [파이썬] random.randint()에서 주의할 점 이니스프리 이니스프리 20.01.13.00:49 219
324 엠팍에서 첨부 이미지 크롤링을 할 때 400대 에러가 뜨는 경우 이니스프리 이니스프리 20.01.12.23:38 192
323 DHTML 에디터에서 Hard Break vs Soft Break 이니스프리 이니스프리 20.01.12.13:48 120
322 [국립국어원] 세팅 vs 셋팅 이니스프리 이니스프리 20.01.11.16:56 1389
321 IPVanish의 한국서버가 4개로 확충되었습니다. image 이니스프리 이니스프리 20.01.11.11:27 116