파이썬 웹 크롤링 하기 - 너무 간단해서 민망합니다.

Sdílet
Vložit
  • čas přidán 27. 08. 2024

Komentáře • 63

  • @where9810
    @where9810 Před 3 lety +3

    Javascript하고 문법이 비슷하네요. 관심있는 문서를 크롤링 하는방법을 찾다가 이런방법이 있구나 해서 봤는데 오늘 해봐야겠습니다.

  • @startcoding.official
    @startcoding.official Před 2 lety +2

    목소리 왜 이렇게 좋으시죠! 부럽네요..
    저는 urlopen 보다 requests 가 편하더라고요ㅋㅋ
    그리고 find보다는 select 가 짱편해요!

    • @with2511
      @with2511  Před 2 lety

      칭찬 감사합니다! 목소리를 더 가다듬게 되네요 ㅋㅋ
      아 requests가 더 편하시군요. 워낙 기본으로 설명 드리다 보니 그렇게 되었네요.

  • @user-uv6hr8zr3z
    @user-uv6hr8zr3z Před 4 lety +3

    단순하고 명쾌하네요. 초보자들이 이해하기 쉽습니다.

    • @with2511
      @with2511  Před 4 lety

      아~ 그러시면 너무 좋네요.

  • @user-po4xn8vy7n
    @user-po4xn8vy7n Před 3 lety

    쉽게 잘 설명해주셔서 감사합니다 ^^

  • @phrealtytv
    @phrealtytv Před 2 lety +1

    독학중인 완전 생초보입니다. colab에서는 beautifulsoup를 인식안하나요? 저는 google colab에서 selenium이나 bs4 등을 통해서 크롤링하려고 하는데 작업이 쉽지 않네요 ㅎㅎㅎ

    • @with2511
      @with2511  Před 2 lety

      저도 colab을 사용해보진 않았는데요. 아래 블로그 보니 할 수 있어 보이네요.
      m.blog.naver.com/xenostep/221987578832

  • @funppun4234
    @funppun4234 Před 4 lety +1

    감사합니다!

  • @rexkimj
    @rexkimj Před 2 lety +2

    링크만 가져오는것은 간단하죠 ㅋㅋ 실제 텍스터 파싱과 분류 불필요한 문자 제거, 포맷팅이 오래 걸리죠 ㅋ

  • @rokroktv544
    @rokroktv544 Před 4 lety +2

    크롤링으로 블로그에 작성된 1000개정도 되는글을 폴더화시킨다고 했을때 사진은jpg으로 순서에맞게 이름변경돼서 폴더에 저장, 글원고의 제목은 블로그글의제목으로 글내용은 한글이나 워드로 저장하는 작업도 가능한건가요?
    가능하다고하면 대학교 컴공 전공자들도 충분히 할수있는 난이도인가요??

    • @with2511
      @with2511  Před 4 lety

      크롤링을 사용하여 블로그의 내용을 가져오는 것은 가능하고, 이미지 저장도 가능합니다. 다만 한글이나 워드로 저장하는 부분이 라이브러리가 필요할 거 같은데요. 대개는 크롤링한 데이터를 TXT나 CSV정도로 저장을 하거든요. 그리고 TXT, CSV를 한글이나 워드로 저장도 가능할거 같구요. 대학교 컴공 전공자면 아주 훌륭한거 같은데요. 한번 시도해보시고 막히시면 질문 주시면 같이 찾아볼께요~

    • @boouptime
      @boouptime Před 4 lety +1

      @@with2511 제가 찾고자 하는 강의가 말씀주신 부분인데요 : ) 강의 요청을...살짝쿵...드려봅니다...^^

  • @user-vw1rk5lh2u
    @user-vw1rk5lh2u Před 2 lety +1

    안녕하세요4^^ 잘보고갑니다d

  • @wonjinyu3441
    @wonjinyu3441 Před 3 lety

    와 정말 많이 배웁니다 ^^ 페이스북 댓글 같은것도 같은 방법으로 크롤링이 가능할까요?

    • @with2511
      @with2511  Před 3 lety

      된다고 생각하구요. 자세히는 아래 링크 참고해보세요~
      victorydntmd.tistory.com/244

  • @user-gw6py3cn2t
    @user-gw6py3cn2t Před 3 lety

    안녕하세요. 화학물질 정보를 엑셀로 구축하고 싶은데요, 예를들어 물질명을 알면 그에 해당하는 CAS #, chemical formular 등을 특정 웹에서 추출하여 엑셀로 빠르게 정리하고 싶은데 이런 코딩은 웹 스크래핑으로 가능한건가요? 가능하다면 기술노트님의 영상 중 어떤거를 보면 좋을지도 추천 부탁드립니다!

    • @with2511
      @with2511  Před 3 lety +1

      안녕하세요~ 혹시 파이썬으로 만드실껀가요? 그리고 해당 사이트가 있다라는 말씀이시죠? 그 사이트에 가면 물질명으로 정보를 찾을 수가 있는 것이고, 그것을 가져오고 싶다는 얘기인거 같은데요. 혹시 지금 보신 영상을 활용하시면 어려움이 있으시나요? 엑셀로 저장하는 것은 별도의 라이브러리들이 있구요. 사이트에서 가져오는 것은 기본 로직이 비슷해서요. 해당 사이트의 상황으로 바꿔주시면 될거 같은데요. 해보시고 안되시면 질문주시구요~

    • @with2511
      @with2511  Před 3 lety

      말씀하신 것도 현재 공유드린 크롤링 기술을 응용하면 가능할거 같은데요. 그런데, 특정 사이트에 그 내용들이 좀 있어야 하구요. 검색을 해서 어느 사이트든 들어가서 가져오는 것은 쉽지는 않을거 같네요. 쉽게 말해 해당 내용이 모아져 있는 사이트가 있으면 규칙에 따라 가져 올 수 있을거 같아요.

  • @jameskim7653
    @jameskim7653 Před 3 měsíci

    위 스크립트 돌려 보니 "NameError: name 'link' is not defined" 뜨네요.
    뭐가 잘못 된 걸 까요?

    • @with2511
      @with2511  Před 3 měsíci

      크롤링 하는 대상 링크 내용 안에 link가 없는 거로 보이는데요.

  • @user-go3kq4ty4j
    @user-go3kq4ty4j Před 3 lety +1

    Remote ans closed connection without response 라고 에러가 뜨는데 무엇이 잘못된건가요

    • @with2511
      @with2511  Před 3 lety

      응답 없이 연결이 끊겼다는 의미인거 같은데요. 혹시 여러번 호출 시도를 한건가요?

    • @gamjatang918
      @gamjatang918 Před 3 lety +1

      @@with2511 html = urlopen 이쪽에서 해당 에러가 발생합니다 bs4 설치 되었음에도 이쪽에서 막히네요

    • @with2511
      @with2511  Před 3 lety

      @@gamjatang918 설치 경로가 다르거나 인식할 수 없는 문제 같은데요..

    • @eeoim9329
      @eeoim9329 Před 3 lety +1

      네이버가 안되는것같아요 다른 페이지들은 되네요(저는 ytn 뉴스긁어봄)

    • @with2511
      @with2511  Před 3 lety

      @@eeoim9329 네이버는 좀더 치밀하게 차단할 수 있어요. 그래도 다른 곳이 되면 그런 식으로 원하는 곳 하면 될 수 있겠네요.

  • @gngn4223
    @gngn4223 Před 3 lety

    내의 페이지에서 공백이 있는 class명을 가져오고 싶은데 (find_class_name) 공백이 있어서 css로 접근을 하자니 또 안되네요 이런 경우는 어떤 경우 일까용?

    • @with2511
      @with2511  Před 3 lety

      아 제가 내 데이터 관련해서 아래 링크 한번 보실래요. m.blog.naver.com/PostView.nhn?blogId=kiddwannabe&logNo=221253004219&proxyReferer=https:%2F%2Fwww.google.com%2F
      별도의 방법이 있어 보이네요.

    • @gngn4223
      @gngn4223 Před 3 lety

      기술노트with 알렉 프레임 스위칭해도 공백 클래스가 문제네용 ㅜㅜㅜㅜㅜ

  • @holee457
    @holee457 Před 3 lety

    구글기사도 강의해주세요!

    • @with2511
      @with2511  Před 3 lety

      아~ 한번 구글도 되는지 봐야겠네요.

  • @user-nu1no2os2r
    @user-nu1no2os2r Před 3 lety

    저는 왜 결과가 HTTP Error 500: Internal Server Error 이렇게 나올까요.. 설마 맥을 사용해서 그런지요.. 서버가 에러가 뜬다고 하는데
    이유를 잘 모르겠습니다. ㅜㅜ

    • @with2511
      @with2511  Před 3 lety

      인터널 서버에러는 대개 서버에서 나오는 에러인데요... 맥을 사용한다고 그러진 않을거 같은데요..

  • @user-nq8rx6id5u
    @user-nq8rx6id5u Před 4 lety +1

    이미지 가져올 때 src는 어디서 나온 건지 알 수 있을까요?

    • @with2511
      @with2511  Před 4 lety

      이미지가 표시되는 위치를 보면 src= 하고 주소가 나오는데요. 그 주소가 출처가 되는데요. 질문주신게 그 말씀이신지요?

    • @user-nq8rx6id5u
      @user-nq8rx6id5u Před 4 lety +1

      기술노트with 알렉 네 감사합니다!! 초보라 모든게 생소하네요!

    • @with2511
      @with2511  Před 4 lety

      @@user-nq8rx6id5u 네, 화이팅입니다!

  • @namu07202able
    @namu07202able Před 3 lety

    ModuleNotFoundError: No module named 'bs'라고 뜨면 어떻게 하나요? ㅠㅠ

    • @with2511
      @with2511  Před 3 lety

      이런 경우 라이브러리 설치가 잘 안되서 그렇거든요. 경로라든가 설치 여부를 확인해보시는게 좋겠습니다.
      studyhard24.tistory.com/235
      이 링크 가보시고 확인해보세요~

  • @user-is1kj9dq1y
    @user-is1kj9dq1y Před 3 lety

    주식 정보를 수집하고싶은데,,, 특정 사이트에서 가져오는 것이 가능할까요? 종목명이나 그런것이라도..

    • @with2511
      @with2511  Před 3 lety

      네~ 주식 정보 수집 가능합니다. 주식의 경우는 두가지 방법으로 정보 수집이 가능한데요. 키움이나 이베스트 같은 곳은 api를 제공하고 있어서 api로 종목명 일자별 주가 등을 가져 올 수 있구요. 네이버 같은 곳에서는 주식 정보를 가져올 수 있습니다. 네이터 주식 정보 사이트 내용을 가져 올 올 수 가 있어요~

    • @user-is1kj9dq1y
      @user-is1kj9dq1y Před 3 lety

      @@with2511 제가 조금 욕심인걸까요? 안해봤던 파이참이란 프로그램을 깔아서 유튜버님처럼 코딩을 쳐보고해봤는데, 자꾸 오류가 뜨네요,,

  • @user-fs8sv9hc8g
    @user-fs8sv9hc8g Před 3 lety

    혹시 사진이 아니라 영상링크는 못가져오나요?

    • @with2511
      @with2511  Před 3 lety

      링크도 가져올 수 있어요~ HTML내에 포함된 모든 내용은 크롤링이 가능해요.

  • @Artemis1004
    @Artemis1004 Před 3 lety

    네이버랑 외신 경제 주요누스만 20개씩 가져올수 있을까요?

    • @with2511
      @with2511  Před 3 lety

      뉴스 20개 정도 가져오는 것은 가능할 거 같구요. 그리고 Open API 찾아보시는 것도 좋은 방법인거 같아요.

    • @Artemis1004
      @Artemis1004 Před 3 lety

      @@with2511 카톡으로 모은 뉴스 전송하고싶은데 어려워요

  • @user-xg1xb3xk3x
    @user-xg1xb3xk3x Před 3 lety

    크롤러했고 이제 카톡으로 보내고싶은데 어떻게 하나요?

    • @with2511
      @with2511  Před 3 lety +1

      카톡으로 보내는 기능은 좀 꼼수가 필요할거 같아요. 카톡은 외부로 전송하거나 받는 API를 제공하지 않더라구요. 그런데, 홍보용으로 사용하려고 오픈해준 것이 있는 그것을 이용하면 되지 않을까 싶네요.

  • @user-rp7ft1rc6s
    @user-rp7ft1rc6s Před rokem

    개인적으로 문의드릴수있을까요 ??

    • @with2511
      @with2511  Před rokem

      어떤 문의 이신가요? hitouchsoft@gmail.com로 메일로 주실래요.

  • @ffffasfasdsafa
    @ffffasfasdsafa Před 4 lety +2

    아니 광고가 너무 많네요

    • @ffffasfasdsafa
      @ffffasfasdsafa Před 2 lety

      @@T_Cell 프리미엄쓰는데요?

    • @ffffasfasdsafa
      @ffffasfasdsafa Před 2 lety

      @@T_Cell 저땐 안썻나보지; 이제 그만하자 내가 잘못했어

  • @user-mj6zx7lz6r
    @user-mj6zx7lz6r Před 4 lety

    strip 함수가 인식이 안되요

    • @with2511
      @with2511  Před 4 lety

      아 strip은 기본 함수인거 같은데요...좀 찾아봤는데요. 해당 함수를 사용하기 위해서 별도 모듈 설치 과정은 없네요.

    • @user-mj6zx7lz6r
      @user-mj6zx7lz6r Před 4 lety +1

      @@with2511 방법을 찾았어요 감사해요ㅜㅜ

  • @Rrs-5def
    @Rrs-5def Před 3 lety

    불법이에요 이거

    • @with2511
      @with2511  Před 3 lety +2

      그렇네요. 웹사이트 콘텐츠를 긁어오는 '크롤링'을 이용해 확보한 콘텐츠를 자신의 영업에 무단 사용하는 것은 데이터베이스(DB)권 침해 행위라는 대법원 판단이 나왔다. 크롤링이라는 기술이 허락되는 사이트 또는 데이터로만 해야 할거 같네요. 무단은 안되겠네요.

  • @starbucks1971
    @starbucks1971 Před rokem

    뭔말인지 하나도 모르겠네여

    • @with2511
      @with2511  Před rokem

      조만간 크롤링에 대해서 한번 다시 올려볼께요~