• 목록
  • 아래로
  • 위로

안녕하세요??

 

주말 잘 보내고 계시는가요?? ^-^

 

from concurrent.futures import ThreadPoolExecutor을 이용하여 다수의 이미지를 크롤링하는 경우에 대해 질문 드립니다.

 

def down_file(url, s, name, dir):
    r = s.get(url)
    if r.status_code == 200:
        filename = dir + '\\' + name
        print(filename)
        with open(filename, 'wb') as f:
            f.write(r.content)
    return s

with ThreadPoolExecutor(max_workers=8) as executor:
    for p in prvs:
        href = p.find('a')['href']
        url =  'URL을 입력하세요' + href
        html = s.get(url).content
        soup = BeautifulSoup(html, 'html5lib')
        a_tags = soup.find('div', {'id':'galerie-listing-photos'}).find_all('a')
        for a in a_tags:
            url = 'URL을 입력하세요' + a['href']
            name = url.split('/')[-1]
            executor.submit(down_file, url, s, name, dir)

 

이와 같이 with 문을 사용하여 실행을 해봤고, 아래와 같이 with 문을 사용하지 않고 실행을 해봤어요~!

 

 

# 다운로드 함수 생략

pool = ThreadPoolExecutor(max_workers=8)
for p in prvs:
    href = p.find('a')['href']
    url =  'URL을 입력하세요' + href
    html = s.get(url).content
    soup = BeautifulSoup(html, 'html5lib')
    a_tags = soup.find('div', {'id':'galerie-listing-photos'}).find_all('a')
    for a in a_tags:
        url = 'URL을 입력하세요' + a['href']
        name = url.split('/')[-1]
        pool.submit(down_file, url, s, name, dir)

 

 

그런데 전자가 후자보다 다운로드 받은 파일 수가 더 많은데요 ㅠㅠ

 

후자에서 어떤 문제가 발생한 것 같은데 무엇 때문에 이러한 문제가 발생했는지 여쭤봅니다.

 

with 문으로 사용하지 않으면 스레드 간에 충돌이 발생하는건가요??

 

 

그럼 비 조심하시고 편안한 주말 되세요 :)

 

항상 감사드려요!! ^^

 

작성자
이니스프리 119 Lv. (0%) 1973470/115200000EXP

Make StudyForUs Great Again!

 

CSVpuymXAAAVVpd.jpg

댓글 4

title: 황금 서버 (30일)humit
profile image
+1
https://docs.python.org/3/library/concurrent.futures.html#concurrent.futures.Executor.shutdown
이 내용이 도움이 되실 거 같네요.
comment menu
2020.08.09. 23:36

신고

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → humit
profile image
humit 님 안녕하세요??
번번이 큰 도움을 주셔서 정말 감사합니다!!

공식문서를 읽는 습관을 들여야 된다는 생각은 늘 하는데...
이번에도 제가 깜빡했네요 ㅠㅠㅠㅠㅠ

제가 제대로 이해했는지 모르겠지만 Executor 인스턴스를 shutdown 하지 않으면
어디에선가 꼬이는가 보군요 ㅜㅜ
구글링해봐도 with 문을 사용하는 경우가 대부분이네요!

병렬작업 실행은 잘 작성하면 정말 효율적인데 저한테는 아직 어렵네요 ㅠㅠ
제가 구매한 서적들에는 이 부분을 제대로 다루지 않던데 어떻게든 더 공부를 해봐야겠어요~
그럼 humit 님께서도 좋은 오후 되시고 태풍이 온다던데 피해가 없으시길 기원할게요!
항상 감사드려요!
comment menu
2020.08.10. 13:41

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

title: 황금 서버 (30일)humit → 이니스프리
profile image
+1
좀더 상세하게 말씀드리자면 shutdown 메서드를 사용하지 않으면 메인 프로세스가 종료된 경우 Executor에 들어온 작업이 실행이 끝날 때까지 대기하는 것이 아니라 바로 종료가 되게 됩니다. 그래서 두 번째 경우에 실행되다가 중간에 종료가 되어서 개수가 적은 것이라고 생각하시면 됩니다.
comment menu
2020.08.11. 23:08

신고

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → humit
profile image
앗 그런 과정에서의 차이가 발생하여 결과가 달라지는 것이군요~ ^-^
정말 감사합니다!!
덕분에 또 많이 배웠네요 :)
그럼 humit 님께서도 비 조심하시고 굿밤 되세요!
comment menu
2020.08.11. 23:18

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

권한이 없습니다.
번호 제목 글쓴이 날짜 조회 수
공지 [작업 완료] 설 명절 맞이 서버 업데이트 안내 3 마스터 24.02.11.17:21 963
공지 [중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 4 마스터 23.01.14.02:23 4640
공지 [필독] 질문하는 방법 17 마스터 18.02.23.03:09 4479
46 라라벨 설치 가이드 없을까요? 1 워시퍼 21.10.27.14:55 158
45 호스팅 신청했는데 초기 설정 어떻게 하는건가요? 5 모여라꿈동산 21.11.21.23:44 182
44 홈 서버 운영과 관련하여 사소한 질문 몇 가지가 있습니다. 8 image 제르엘 21.11.22.01:54 344
43 index 파일은 어디에 넣어야 되는걸까요? 3 모여라꿈동산 21.11.22.08:44 229
42 sfuhost에서 사용 가능한 언어 6 모여라꿈동산 21.11.22.14:43 303
41 홈페에지가 구글에서 검색되도록 봇이 수집하게 설정했는데 API도 수집하도록 설정해도 되나요? 4 손가락개 21.12.06.03:45 278
40 개인 홈페이지를 만들려고 하는데 보통 이미지들 어디서 얻으시나요? 다 만들어서 쓸 수는 없을 것 같고.. 2 yuyu 21.12.31.12:53 283
39 호스팅 처음 해보는데 받은 주소를 쓰면 스터디 포 어스 페이지가 나옵니다. 7 yuyu 22.01.05.11:35 329
38 혹시 파이어베이스 사용하고 계시는 분 있으실까요? 공부에 도움될 만한 개발자 문서가 따로 있을까요? 3 제목학원장 22.01.07.13:57 244
37 혹시 라이브러리나 개발자문서 한글 번역 정리 2 제목학원장 22.01.11.13:23 286
36 나리야 빌더로 게임커뮤니티 운영 2 핫슈블로그 22.01.27.08:28 471
35 DNS 관련 질문 (Netlify, CloudFlare) 5 밍원 22.02.14.15:24 202
34 백업 파일도 디스크 용량에 포함인가요? 3 마당쇠15 22.03.10.10:52 166
33 브라우저 익스텐션이 있는 self hosted VPN으로 어떤 것이 있을까요? image 이니스프리 22.03.20.13:57 146
32 우분투 20.04 cockpit 설치 안됨(해결) gunwook 22.04.01.22:20 113
31 Vesa 마운트를 이용한 미니PC의 거치 4 이니스프리 22.04.07.12:23 274
30 LTE 폰에서 3G 수신감도 확인방법?? 8 이니스프리 22.05.01.20:42 505
29 Possible attack detected. This action has been logged. 패널접속하니 메세지가뜨네요 1 막시모 22.07.08.12:58 115
28 curl: (7) Failed to connect to localhost port 80: Connection refused 2 image 국내산라이츄 22.07.25.15:57 1574
27 phpMyAdmin 접속시 mysqli_real_connect(): (HY000/1045): Access denied for user '000000'@'localhost' (using password: YES) 4 동파육 22.08.31.00:59 159