• 목록
  • 아래로
  • 위로

다름이 아니고 크롤링을 한번 익혀볼까 합니다.

기어가는 법은 어렸을 때부터 알고 있었기 때문에 다시 배우는 것은 쉽겠지만(!) 이걸 어디다가 써먹냐가 문제일 듯 하더라고요.

 

어디에 써먹을 수 있을까요?

작성자
갱생협스 53 Lv. (20%) 226440/233280EXP

sudo rm -rf ./*

댓글 13

이니스프리
profile image

댓글을 아주 길게 작성했는데 서버가 불안정해서 날아갔네요 ㅠㅠ
요지만 말씀드리면 사용할 용도가 정해진 후에 공부하시는게 좋을 것 같아요~!
방향성이 정해지지 않으면 일단 의욕이 반감되는 것 같구요 ㄷㄷ
어떤 언어로 어떤 웹페이지의 정보를 크롤링할지에 따라서 공부방향이 많이 달라지니깐요 :)

PHP 사이트를 보면 보통 크롤링의 필요성이 생겨서 공부를 시작하시는 분들이 많더군요!

 

처음에는 SIR 자게처럼 비교적 구조화가 잘 되어 있으면서도 크롤링하기 간단한 페이지부터 연습하세요~
결정하기 어려우시면 학교 홈페이지나 할인정보가 담긴 홈페이지를 목표로 하시구요 ㅎㅎ
그럼 홧팅하세요~!

comment menu
2020.05.04. 22:09

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

갱생협스 작성자 → 이니스프리
profile image
흐에에 오늘은 서버가 나빴네요...
우선 가상서버에 컴퓨팅 파워가 좀 남아서 어떻게 써볼까 고민하다 크롤링을 생각하게 된 겁니다. 그런데 그닥 쓸 데도 없고 해서 어디에 써먹어야 할 지 질문 드린거고요.

그나저나 SIR 자게가 구조화가 잘 되어있나 보네요. 복잡해보여서 흐음🤔 이러고 넘어갔었습니다 ㅋㅋㅋㅋ

아, 미세먼지 데이터를 긁어오는 것도 괜찮을 것 같네요.
생각해보니 꼭 필요하진 않아도 활용도가 꽤 높아보이니 한번쯤은 익혀봐도 좋을 것 같습니다.

늘 정성스러운 댓글 감사드리고, 스포티콘이 새로 하나 추가되었습니다. 제가 만든겁니다 lol
comment menu
2020.05.05. 00:01

신고

"갱생협스님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 → 갱생협스
profile image

SIR이 개발자분들께서 운영하는 사이트여서 여러모로 배울 점이 많더군요~!
물론 프로페셔널한 개발자분들께서 보시기에 구조화가 잘 되어있지 않다고 생각하신다면
감히 저같은 아마추어가 드릴 말씀은 없지만

그래도 딱히 크롤링을 차단한 부분도 없고 전반적으로 크롤링 연습하기에 좋은 것 같아요 :)

미세먼지 데이터는 저도 예전에 작업을 한 적이 있었는데
무료 API로 제공되고 있어서 이런건 크롤링 공부의 대상으로 생각하시는 범위는 아니라고 생각해서 말씀을 안 드렸네요~!
물론 API부터 연습하는 것도 도움이 되죠 :)

저도 시간이 날 때 디시콘을 퍼올게요 ^-^
그럼 굿밤 되세요! :)

comment menu
2020.05.05. 00:10

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 → 갱생협스
profile image
덧붙여 말씀드리면 파이썬 크롤링을 하실거라면 Selenium -> 정적 웹페이지 Requests -> 동적 웹페이지 Requests 순으로 연습하시면 될 것 같네요 ^-^
comment menu
2020.05.05. 00:13

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

갱생협스 작성자 → 이니스프리
profile image
앗 번번히 감사합니다!
요즘 프로그래밍을 전혀 하지 않은 덕택에 api 구현 방식도 다 잊어버렸네요~
api request 후에 음.. 정보를 받아와서.. 파싱을 하..는 거였나? 헷갈려요 🤣

아, 카카오톡 봇을 돌려도 되겠네요. 서버 자체의 활용도는 무궁무진한걸로!
comment menu
2020.05.05. 12:38

신고

"갱생협스님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 → 갱생협스
profile image

옙 그렇게 하시면 되어요~ ^^
일반적인 크롤링보다 전반적으로 훨씬 간단하죠!

+)
VPS의 가용 자원 중에 스토리지가 많이 남아있다면 클라우드 스토리지,
네트워크가 많이 남아있다면 VPN을 돌리는 것도 좋을 것 같네요 :)
둘 다 남아있다면 Pictshare 같은 이미지 호스팅 서버를 돌리시는 것도 좋구요!

Requests 크롤링은 엄청나게 이미지를 긁어오는게 아니라면 시스템 리소스를 별로 안 잡아먹어서 말이죠 ㄷㄷ

comment menu
2020.05.05. 12:57

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

갱생협스 작성자 → 이니스프리
profile image
이미 VPN을 셋팅해둔 서버인데 뭐 몇명 안 쓰다보니 전체적으로 컴퓨팅 파워가 남더라고요.

네트워크는 어 음.. 많이 남네요 ㅎㅎ,,,
1테라 플랜에서 대략 50기가정도를 쓴 것으로 나오니 말이죠.
스토리지 20기가중 쓴 건 1기가도 안 될 것 같고..
제일싼 3.5불 플랜임에도 불구하고 많이 남네요;;;
comment menu
2020.05.05. 13:47

신고

"갱생협스님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 → 갱생협스
profile image

오오~ 그렇군요! ^^
그럼 네트워크도 남고 스토리지도 남으니...
스포어의 유머게시판이나 마나모아처럼 이미지가 많은 사이트를 크롤링하는 연습을 해보세요!! :)

후자의 경우에는 github에 참고할만한 자료가 있는 것 같네요 ㅎㄷㄷ

 

+) 제가 예전에 팁게시판에 올려놓은 글이 조금 참고가 될 수 있겠네요 ^^

comment menu
2020.05.05. 13:54

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

갱생협스 작성자 → 이니스프리
profile image
짤줍해다가 짤만 어찌어찌 받아놓는걸로 짤 생성기를 만들 수도 있겠네요!!

감사합니다 많이 도움이 되었습니다 :)
comment menu
2020.05.05. 14:16

신고

"갱생협스님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 → 갱생협스
profile image

그쵸! 짤 생성기 좋은 것 같아요 :)

파이썬을 조금만 만져보시면 짤을 자동으로 퍼와서 이미지 호스팅 URL을 반환하는 방식이나
이모티콘을 A 사이트에서 퍼와서 B 사이트로 그대로 옮기는 로직도 구현 가능해요 ^-^

comment menu
2020.05.05. 20:46

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

갱생협스 작성자 → 이니스프리
profile image
(그렇게 협스는 짤 생성기를 만들게 되었다고 한다)
comment menu
2020.05.05. 21:01

신고

"갱생협스님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 → 갱생협스
profile image

혹시 구체적으로 어떤 방식의 짤 생성기를 생각하고 계시는가요오?? ^-^

저는 예전에 A 사이트에 올라온 짤을 캡쳐하여 하나의 파일로 만들어서

B 사이트에 새 글을 작성하여 첨부하는 스크립트를 작성한 적이 있었거든요 :)

이런걸 말씀하시는건 아닌 것 같은데요 ㄷㄷ

comment menu
2020.05.05. 21:02

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

권한이 없습니다.
번호 제목 글쓴이 날짜 조회 수
공지 [1차 해결 및 추가] 서버 접속 불가 문제 안내 12 마스터 24.06.20.15:22 230
공지 [작업 완료] 설 명절 맞이 서버 업데이트 안내 3 마스터 24.02.11.17:21 2279
공지 [중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 4 마스터 23.01.14.02:23 5968
공지 [필독] 질문하는 방법 17 마스터 18.02.23.03:09 4579
506 우수회원 6 alstn 17.06.18.14:41 262
505 리버티스킨 목차 버튼 삭제 3 image 260578 17.12.04.16:46 262
504 창 크기에 따라서 표의 크기가 달라지는 태그는 없나요? 6 image 국내산라이츄 19.08.05.17:41 262
503 크롤링 용도로 사용하는 VPS의 트래픽이 얼마나 될까요?? 2 이니스프리 20.03.29.21:02 262
502 Cloudflare ssl 사용하려면 패널에서 따로 해줘야 할 것이 있나요? 2 참빛바다 18.01.12.11:57 263
501 그누보드용 회원차단 크롬 확장프로그램을 만들어보려는데요~ ^-^ 7 이니스프리 20.03.24.23:53 263
500 으앜! 살려주세요 7 title: 도밥위키!Dobob 18.01.20.19:22 264
499 [PHP] nl2br 함수 관련 3 260578 18.11.21.20:28 264
498 윽 도메인이... 7 title: 도밥위키!Dobob 17.04.06.21:56 265
497 호스팅 미디어위키 5 맛수타 17.05.07.16:51 265
496 바로가기 링크#걸어도 펼침메뉴가 9 핫슈 17.06.12.22:36 265
495 데이터베이스 연결.. 제발 도와주세요 ㅠ.. 2 준그루 17.08.10.22:50 265
494 스레드식 게시판 프로그램좀 추천해주세요. 4 260578 18.05.20.19:53 265
493 비트코인 소켓 통신은 어떻게 하는 건가요? 3 필우 21.05.08.17:31 265
492 미디어위키 msupload 설치가... 3 title: 도밥위키!Dobob 17.04.07.10:23 266
491 호스팅 트래픽 초과되면 어떻게 해야하나요?? 8 title: 도밥위키!Dobob 17.05.24.18:43 266
490 [미디어위키] 비밀번호 재설정 (SMTP) 기능이 작동하지 않음 1 260578 18.03.03.19:37 266
489 라엘 님의 이미지 캐시 서버 구축하기와 관련하여 구체적인 방법을 여쭤봅니다 4 이니스프리 19.01.27.13:59 266
488 [파이썬] 롯데백화점 크롤링과 관련하여 질문을 드립니다 2 image 이니스프리 19.12.04.21:56 266
487 백신이 삭제가 앙대요 4 국내산라이츄 17.08.29.11:57 267