Скрейпинг сайтов с помощью библиотек Beautifulsoup и Requests на Python

Sdílet
Vložit
  • čas přidán 9. 09. 2021
  • ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА
    ____________
    ❗❗❗Так называемое Министерство юстиции РФ признало «Важные истории» «нежелательной организацией». Так что репост этого и любого другого нашего видео может караться штрафом, а повторный репост - уголовным делом.
    Но никто не может запретить вам смотреть и думать. Поэтому подписывайтесь на наш канал, просите подписаться своих друзей и оставайтесь с нами - в это темное время выжить мы сможем только вместе.
    ____________
    На примере сайта Кинопоиск учимся скрейпить данные с помощью питоновских библиотек Beautifulsoup и Requests.
    🔹 Текстовая версия
    ➡️ istories.media/workshops/2021...
    🔹Подписаться на рассылку Мастерской «Важных историй»:
    ➡️ mailchi.mp/istories.media/wor...
    🔹Telegram-канал Мастерской
    ➡️ t.me/istories_workshop

Komentáře • 216

  • @istories_workshop
    @istories_workshop  Před 2 lety +29

    ❗❗❗Так называемое Министерство юстиции РФ признало «Важные истории» «нежелательной организацией». Так что репост этого и любого другого нашего видео может караться штрафом, а повторный репост - уголовным делом.
    Но никто не может запретить вам смотреть и думать. Поэтому подписывайтесь на наш канал, просите подписаться своих друзей и оставайтесь с нами - в это темное время выжить мы сможем только вместе.

    • @yarmik3d
      @yarmik3d Před 2 lety +5

      Так называемы "программист\ка" решила учить, сама не особо понимая, что делает.

    • @user-lj7gz1uj9t
      @user-lj7gz1uj9t Před rokem +4

      @@yarmik3d ахахах, любитель рУЗКОГО мира будет нам тут кукареть как правильно родину любить, иди грим смой, клоун😂

    • @yarmik3d
      @yarmik3d Před rokem +6

      @@user-lj7gz1uj9t А ты любитель какого мира пишущего на русском языке?

    • @user-lj7gz1uj9t
      @user-lj7gz1uj9t Před rokem +8

      @@yarmik3d я сторонник цивилизованного мира, основанного на демократии, свободе слова и верховенства права. И какая тебе разница на каком языке я пишу. Ты же наверняка не знаешь ни одного другого языка кроме русского

    • @yarmik3d
      @yarmik3d Před rokem +5

      @@user-lj7gz1uj9t Все это ты мог выразить одним словом - ПРЕДАТЕЛЬ

  • @user-up4xx1ub7q
    @user-up4xx1ub7q Před rokem +39

    Добрый день. Мне 60 лет, изучаю аналитику данных. Ваш урок - это СУПЕР. Все понятно, логично, доходчиво! Спасибо! Удачи Вам!

    • @Storks40
      @Storks40 Před 9 měsíci

      Мне 66.Тоже подсел на эту тему) По этому видео сделал календарь культурных событий в нашей области. Очень хорошее объяснение.

    • @artur_alf
      @artur_alf Před 5 měsíci

      Вы крутые!

  • @weik_gamecut
    @weik_gamecut Před 2 lety +28

    Смотрел уроков 5 по парсингу и тяжело было уловить суть в какой последовательности и логике все делать, чтобы без подсказок самому делать потом. А здесь объяснение шикарное, у меня прям картинка прорисовалась в голове сразу, особенно хорошо, что сначала пишутся строки под один фильм, а уже когда понял это, показано как объединить строки чтобы получить все фильмы, а потом как и с каждой страницы. Так удобнее, спасибо!

    • @istories_workshop
      @istories_workshop  Před 2 lety

      Йее! Очень рады, что вам подошел наш подход (простите за тавтологию)
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

    • @LifterAndy
      @LifterAndy Před rokem

      Начни лучше не с парсинга, а с решения олимпиадных задач и синтаксиса языка.

  • @clear1948
    @clear1948 Před 2 lety +32

    У меня всегда было предвзятое отношение к русскоязычным урокам. Всегда смотрю туториалы на английском, так как они проще все обьясняют. Но здесь, Алеся вы просто супер. Как же вы круто обьясняете, быстро и понятно без лишних слов. Вы мастерский учитель. Спасибо вам большое ❤

    • @istories_workshop
      @istories_workshop  Před 2 lety +1

      Спасибо большое за просмотр и такую оценку! Очень рады))
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @PapaBOSS
    @PapaBOSS Před 2 lety +9

    Какая же ты молодец! Всё очень доходчиво и спокойно объяснила . Спасибо!

  • @user-ut2qw8cm6b
    @user-ut2qw8cm6b Před 5 dny

    Благодарю, урок просто шикарен!

  • @non5309
    @non5309 Před 2 lety +18

    первый дисклеймер это похоже новый знак качества )

  • @Mr6epkym
    @Mr6epkym Před rokem +2

    Это лучшие уроки по парсингу которые я когда-либо встречал!

  • @user-bt7wq5vi1i
    @user-bt7wq5vi1i Před 11 měsíci +2

    Иноагент - это знак качества в наше время.

  • @msv108
    @msv108 Před rokem +2

    Огромное спасибо! С обработкой none нигде не могла найти решение. А вы так просто все объяснили! Лайк и подписка!

  • @nadiiaschmitz2306
    @nadiiaschmitz2306 Před rokem

    Очень классное видео, прямо кристальная ясность наступает, спасибо огромное! 🌹🌹🌹

  • @user-wr5vt2gc3e
    @user-wr5vt2gc3e Před rokem +2

    Спасибо вам большое за толковые и интересные видеоуроки

  • @eldardev
    @eldardev Před rokem +1

    Супер! Спасибо за пример! Идеально взяли пример и объяснили кристально

  • @user-zt3ff4mi9u
    @user-zt3ff4mi9u Před rokem +1

    Классно объясняет, не зная языка питона, немного разбираясь в пхп, после просмотра урока получилось решить свою задачу))
    Однозначно лайк и подписка, теперь пересмотрю все уроки 😂

  • @user-jz4zq6bp6z
    @user-jz4zq6bp6z Před rokem +6

    Как бывший преподаватель, работавший в SkillFactory, GeekBrains MailRu и других компаниях, подтверждаю - очень качественный контент, очень понравился ваш урок, со всеми разъяснениями. Понятно, что для того, чтобы точно всё понимать, без изучения азов вебверстки и самого языка python не обойтись. Однако, если вы уже знакомы со всеми этими технологиями, данный материал будет для вас максимально понятен и полезен. Всё даётся по пунктам, достаточно развёрнуто. Да, где-то приходится откатываться назад, чтобы пользователь понимал, откуда что берётся. Однако это не просаживает урок, всё очень динамично и не даёт уснуть. Спасибо!

  • @an-rh8bp
    @an-rh8bp Před 2 lety +2

    Держитесь, ребята, благодарю!

  • @user-em9ml7ee1s
    @user-em9ml7ee1s Před rokem +1

    Супер урок! Спасибо!:)

  • @vvitasikm3341
    @vvitasikm3341 Před rokem +1

    Супер ! Спасибо тебе милая девушка😊

  • @maestr0G
    @maestr0G Před rokem

    Вы просто супер , объясняет очень хорошо. Спасибо вам большое за контент ❤❤❤

  • @cosmonaut380
    @cosmonaut380 Před rokem

    Этот канал - сокровище, которое лежало у меня под ногами, о котором я узнал благодаря Кацу. Полезность этого видео зашкаливает, спасибо огромное! Подписался

  • @pervosled
    @pervosled Před 2 lety +2

    Очень полезно, спасибо!

  • @user-lc6oj7vr4d
    @user-lc6oj7vr4d Před 2 lety +14

    Алеся, какая же Вы молодец! Я собираюсь изучать пайтон, уже проплатил годовой онлайн курс. Мне 48 лет. Пробовал писать код по видео других авторов. Не получалось. Но по Вашему видео я дошол до конца. Все же прошол скрипт по всем страницам, спарсил все 250 фильмов и собрал все данные в файл. Вы дали возможность поверить в себя. Огромное Вам,Алеся,спасибо.

    • @istories_workshop
      @istories_workshop  Před 2 lety +1

      Очень приятно, спасибо и вам!
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

    • @glimmer5103
      @glimmer5103 Před 2 lety

      @@istories_workshop Что это значит "ДАННОЕ СООБЩЕНИЕ"... ?

    • @istories_workshop
      @istories_workshop  Před 2 lety +5

      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА
      Что нас внесли в реестр СМИ-"иноагентов". Мы с этим не согласны и оспариваем через суд. Но т.к. мы живем в России и работаем в России, то вынуждены (пытаться) выполнять требования этого "закон об иноагентах". По нему мы должны вообще на все наши сообщения (тексты, видео, комментарии, репосты, ретвиты, и т.п.) ставить эту пометку. В противном случае наше юрлицо и главный редактор получат штраф. После нескольких штрафов главреду грозит уголовное преследование.

    • @user-ku4nn5pw8p
      @user-ku4nn5pw8p Před rokem

      как успехи?)

    • @user-lc6oj7vr4d
      @user-lc6oj7vr4d Před rokem +1

      @@user-ku4nn5pw8p Дается не легко, не скрою. Но безумно интеоесно. Взял академ, на работу вызвали. Остановился на ООП. Через 2 недели домой. Вахта заканчивается. Думаю летом будет защита. Думаю какой проект взять. Уже написал самостоятельно несколько программ. Так что, Иван, всё хорошо!

  • @ThisIsGreenRoom
    @ThisIsGreenRoom Před 2 lety +1

    Зачётно всё понятно и доступно 💢 спасибо

  • @user-vl1el8bp7y
    @user-vl1el8bp7y Před 2 lety +1

    Спасибо! Информация доходчивая и легко усваиваемая во всех видео на канале!

    • @istories_workshop
      @istories_workshop  Před 2 lety

      Спасибо, что смотрите :)
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @shazplay8878
    @shazplay8878 Před 2 lety +6

    Большое вам спасибо за самые крутые уроки во вселенной! ❤️❤️❤️

    • @istories_workshop
      @istories_workshop  Před 2 lety +1

      Рады, что нравится, спасибо, что смотрите!
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @user-rd2qw1xq8v
    @user-rd2qw1xq8v Před 9 měsíci +2

    кое как вырулил себе список ссылок с другого сайта, так как начинающий. Но все же у вас более доходчивое объяснение парсинга

  • @fghhna
    @fghhna Před 11 měsíci +1

    Шикарная подача информации. Крайне полезное видео.

  • @almaz1839
    @almaz1839 Před rokem +1

    Лучше пояснение! Спасибо, ты богиня!)

  • @yauhenilamakin8495
    @yauhenilamakin8495 Před rokem +1

    Спасибо большое. Все просто и понятно. И главное, что работает

  • @user-eh2su5ll1p
    @user-eh2su5ll1p Před rokem +1

    УМНИЦА, очень круто объясняешь , спасибо тебе

  • @larsthorleik2484
    @larsthorleik2484 Před rokem +2

    Всё понятно, только сайт Кинопоиск блокирует парсинг-запросы. В первый раз запрос срабатывает и данные получаются, потом выскакивает ошибка. Приходится мучиться. Может нужен прокси, а может в Юпитере нет таких проблем как в Пайчарме, в котором я работаю.

  • @chekito
    @chekito Před rokem +1

    Просто поклон до земли за эти уроки! Только у вас понял технику. Но возник вопрос. При парсинге вылетает исключение 'requests.exceptions.ConnectTimeout:' Как его лечить? Что конкретно прописать в except?

  • @andreyandreyovich5454
    @andreyandreyovich5454 Před 10 měsíci

    я загалом працюю в дотичній до іт галузі, але була потреба викростати скрейпінг, зазвичай теж дивлюся англійською, але ваші найкращі. дякую, все зрозуміло і по ділу

  • @user-vf1wz3kz1b
    @user-vf1wz3kz1b Před rokem +1

    очень доступно, понятно, круто

  • @drgg9368
    @drgg9368 Před 11 měsíci +1

    Расскажите пожалуйста data science и скрейпинг это одно и тоже. Просто хотел купить книгу для изучения, а книга про скрейпинг 2016 года, я боюсь покупать т.к инфа может быть устарела . И я нашёл книгу про data science 2023 хорошую судя по отзывам и т.д. Вопрос такой мне нужна книга про то что говорится в видео . Подскажите пожалуйста какую взять накидайте вариантов буду очень благодарен. И ещё все таки data science и парсинг и скарпинг сайтов это одно и тоже?

  • @VitaliiTriboi
    @VitaliiTriboi Před rokem +2

    У меня не работает. Возможно потому что страница стала динамической. Я не получаю элементов с таким же классом как в браузере. можете пояснить?? Думаю многим будет интересно.

  • @user-cv9pc9kw3c
    @user-cv9pc9kw3c Před rokem

    очень доступно подан материал, но не понятны слова запустим. это print в pyCharm? какая программа стоит у вас для кода?

  • @vasiliyovchinnikov1731

    Спасибо огромное!

  • @daxorid
    @daxorid Před rokem +1

    А это на какой версии пайтона? Просто я пробую парсить на 3.11 и у меня часть кода работает, а часть нет. Например: не работает .text, .get и др. Попробую установить более старую версию, например 3.10

  • @Onixx616
    @Onixx616 Před 2 lety

    Очень позновательный видос

  • @pavelalex490
    @pavelalex490 Před měsícem

    Спасибо!

  • @Dmitrijs.Skorohodovs
    @Dmitrijs.Skorohodovs Před rokem

    Почему выдаёт ошибку
    raise FeatureNotFound(
    bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?
    Даже если lmlx установлен?...

  • @morinks
    @morinks Před 4 měsíci

    Это лучшее обучение что я видел

  • @YAUHENNAUROTSKI
    @YAUHENNAUROTSKI Před 10 měsíci +1

    Здрастауйте ,а есть ли курсы при вашей поддержки по скрейпингу и анализу данных?

  • @non5309
    @non5309 Před 2 lety +3

    следующий урок будет интересным, видимо там будет про user_agent и подобное

  • @kirillsidorov6641
    @kirillsidorov6641 Před 8 měsíci

    Просто отлично, лайк хоть можно поставить?

  • @user-oq3np1ud8q
    @user-oq3np1ud8q Před 2 lety +4

    Спасибо за курсы! А можно ссылку на репозитории с кодом для предыдущего проекта(бот) и по текущему проекту тоже?

    • @istories_workshop
      @istories_workshop  Před 2 lety +2

      Здравствуйте!
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА
      Ссылка на код робота ждала вас под последним видео курса, вот она: github.com/iStoriesMedia/robot
      По текущему будет чуть позже - тоже под видео появится ссылка.

    • @user-oq3np1ud8q
      @user-oq3np1ud8q Před 2 lety

      @@istories_workshop спасибо!

  • @Arnur-wt3vd
    @Arnur-wt3vd Před rokem +2

    А почему при парсинге вместо данных я получаю none?(

  • @name91fhghghg8
    @name91fhghghg8 Před 2 lety

    с возвращением из застенков

  • @galievramil1169
    @galievramil1169 Před 6 měsíci

    Отлично

  • @forexmio
    @forexmio Před 7 měsíci

    иноагенту лайк!!!! три раза!!!

  • @user-yx9mi7xf6g
    @user-yx9mi7xf6g Před rokem

    Здравствуйте, у меня есть 30 тыс ссылок и мне нужно из каждой ссылки собрать - артикул, описание и картинку. Заметила, что сайт не любит большое количество запросов. Есть ли способ обойти эту защиту используя прокси или что-то другое. Хотела купить прокси, но это дорого.

  • @user-os8xp6zg5c
    @user-os8xp6zg5c Před 2 lety +1

    Очень живо и понятно всё! Спасибо за урок!

  • @user-xx4gf8ps9c
    @user-xx4gf8ps9c Před rokem

    Здравствуйте, кто-то может подсказать пожалуйста? Вот какая проблема. Делал все пошагово - работало. Ровно до тех пор, пока на попытался парсить все пять страниц. После этого мне вначале выдало исключительно 4ю страницу. А затем цикл просто стал выдавать пустой лист. Перешел к первым шагам, решил еще раз попробовать на одной странице и теперь request.get(url) с той же самой ссылкой выдает абсолютно другой скрипт страницы, как это происходит и что с этим делать?..

  • @karimjapparov5324
    @karimjapparov5324 Před 6 měsíci

    thank you

  • @user-ob3zd6yv9s
    @user-ob3zd6yv9s Před rokem +3

    Подскажите, плиз, что не так после soup = bs(r.text, 'lxml') всё выходит в одну длинную строку. И потом при поиске soup.find('div', class_='styles_root__ti07r') ничего не находит

    • @sokatef
      @sokatef Před rokem +2

      Контент динамически загружается, т.е. просто так нельзя получить, так как js код в процессе исполняется. Используйте selenium, чтоб получить html вид страницы и уже по видео обработку делайте.

  • @user-if7qx9ib8f
    @user-if7qx9ib8f Před 2 lety +2

    здравствуйте! я +- разобралась в парсинге на реквестс, можете, пожалуйста, подсказать, как мне начать поиск по введенным данным пользователя (input) и вытащить первые 10 ссылок, которые находятся в браузере по этому запросу?

    • @istories_workshop
      @istories_workshop  Před 2 lety

      Здравствуйте! Здесь (czcams.com/video/oqS-bR5m1bI/video.html) рассказываем, как искать поле ввода и нажимать enter, чтобы поиск выполнился. И в этом же уроке есть пример того, как можно собрать первые 10 строк выдачи.
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @patriziab6782
    @patriziab6782 Před 2 lety

    Здравствуйте, на предпоследнем шагу len(data) возвращает 0.
    Код вроде точь-в-точь, не пойму в чём проблема. Код вроде точь-в-точь, не пойму в чём проблема. Не могли бы вы подсказать, что может быть тому причиной, или опубликовать исходник? Спасибо, видео очень понравилось!

    • @istories_workshop
      @istories_workshop  Před 2 lety

      Здравствуйте! Видимо, все же не один в один...
      Попробуйте показать ваш код в нашем чате, постараемся помочь: t.me/istories_helloworld
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @user-sx7xo8ul9g
    @user-sx7xo8ul9g Před rokem

    Топ!!

  • @academy-mu6uh
    @academy-mu6uh Před rokem

    У меня вопрос, а как быть со страницами на которых кодьнельзя просмотреть (resources page), нажимая а открывается тупа пустая страница?

  • @rakhmanovtr
    @rakhmanovtr Před rokem

    шикарно для новичка

  • @picassos3017
    @picassos3017 Před rokem

    Пробую повторить 2.01.2023. Названия классов сменились. Это как?

  • @Hacking-NASSA-with-HTML

    Здравствуйте, я очень извиняюсь за возможно тупой вопрос, а может парсер - работать в режиме event listener🤔?
    Чтобы "поселить" парсер на форум, и чтобы парсер сообщал о наиболее активных темах, типа "на ветке велосипеды за последний час появилось 9 сообщений". Как такое сделать 🤔?

    • @Hacking-NASSA-with-HTML
      @Hacking-NASSA-with-HTML Před rokem

      Бэкэнд сайта сделан на node js.
      Как вот такое сделать 🤔? Чтобы парсер "слушал" двести веток форума одновременно.
      Объясните пожалуйста хотя бы в общих чертах, дальше я уже сам догуглю, ато я даже не знаю что пока гуглить 😁🤷

  • @garrig1925
    @garrig1925 Před rokem +3

    Привет. При вводе soup = BeautifulSoup(r.text, "lxml") выводит ошибку FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? / Кое как запустил скрипт pycharm, выбрал как указали классы (но классы отличаются от ваших - время много прошло сайт поменялся), на выходе очень большой объем информации не получается уменьшить. Подскажите в чем ошибка

    • @yaroslavkuznetsov5016
      @yaroslavkuznetsov5016 Před rokem +1

      нужно установить lxml так же как и BeautifulSoup - Pycharm - File - Settings - Python interpreter + ищешь и инсталируешь lxml

    • @user-xx4gf8ps9c
      @user-xx4gf8ps9c Před rokem

      Также выводится огромный нечитаемый массив данных, а при установке lxml пишет requirement already satisfied(

  • @Denmark1150
    @Denmark1150 Před 2 lety +3

    Что-то у менявроде сначала все работало почти правильно, а потом перестало работать. Вроде с кодом все впорядке, но первый раз вывело не весь список, а потом и вовсе перестало выводить. Может ли быть такое, что кинопоиск мой айпишник из-за такой активности заблочил на какое-то время?
    В частности когда я по отдельности пытаюсь запустить запросы на один из пунктов(ссылка, название, страна и т.д.) выходит ошибка AttributeError 'NoneType' object has no attribute 'find'. Не мог же я наковырять во всех этих пунктах. Раньше они исправно работали
    UPD: заработало само через некоторое время, но почему-то выдало только 150. Но тоже не плохо😀
    Спасибо за видео, вы крутые

    • @user-xx4gf8ps9c
      @user-xx4gf8ps9c Před rokem

      Руслан, у меня такая же история, в тч выдает другой скрипт страницы через некоторое время...А на последнем цикле выдает строго одну страницу, а в след раз просто пустой список О_о Магия какая-то, иначе не могу объяснить...

    • @timuryuldoshev1609
      @timuryuldoshev1609 Před rokem

      @@user-xx4gf8ps9c это не магия, это защита от парсинга =) пробуйте внедрять в код "обманки".

  • @floki_spb8967
    @floki_spb8967 Před rokem

    УМНИЦА!!!!!!

  • @gcodegsk9632
    @gcodegsk9632 Před 2 lety +1

    Искренне не понимаю, как с таким качеством контента у вас такое небольшое количество подписчиков, уверен, это временно конечно, но возможно, стоит сменить название канала на что-то более логически подходящее к формату ;)

  • @Dmitrijs.Skorohodovs
    @Dmitrijs.Skorohodovs Před rokem +1

    Выдаёт ошибку - raise FeatureNotFound(
    bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?
    Что делать?

    • @B1eka
      @B1eka Před 5 měsíci

      Библиотеки надо сначало скачать и импотритовать

  • @user-fd4il2gd4q
    @user-fd4il2gd4q Před 2 lety

    Добрый день, мне просто стало интересно вы по паспорту Алеся? Или все таки это опечатка, на сколько мне известно данное имя пишется Олеся!

    • @istories_workshop
      @istories_workshop  Před 2 lety

      Нет, она Алеся) Вряд ли бы мы не научились правильно писать имя коллеги))
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @alexdixon2844
    @alexdixon2844 Před rokem

    Скажите пожалуйста, почему вместо кода пишет результат None?

  • @user-zz5qz2gz2n
    @user-zz5qz2gz2n Před 2 lety

    так и не понял где до цикла определена "переменная" film использующася в цикле.... после переименования соуп в филм, пропадает подкрашивание синтаксиса find

    • @istories_workshop
      @istories_workshop  Před 2 lety

      Здравствуйте. Попробуйте написать в наш чат t.me/istories_helloworld, не видя ваш код невозможно понять, в чем может быть проблема.
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @user-or6wr9xg4d
    @user-or6wr9xg4d Před 2 lety

    спасибо

  • @TheMrDivinsky
    @TheMrDivinsky Před 2 lety

    Good soup 👌

  • @osvab000
    @osvab000 Před rokem

    На 9 минуте, после команды: soup.find('div', class_='desktop-rating-selection-film-item').find('a', class_='selection-film-item-meta_link') - выскакивает ошибка! У вас работает а у меня нет и не могу понять почему? Может это из-за Коллаба?

    • @istories_workshop
      @istories_workshop  Před rokem

      Чтобы ответить на вопрос, нужно видеть текст ошибки. Там должно быть написано, почему код не может пройти дальше и в какой строке проблема. Если не получается найти самому, погуглите текст ошибки - на StackOverflow скорее всего уже будет ответ

  • @moksggwp4195
    @moksggwp4195 Před rokem +2

    Можете прикрепить готовый ipynb, py файл из этого видео? Буду очень рад если скинете!❤

  • @valdemarvaldemar4734
    @valdemarvaldemar4734 Před 2 lety

    Добрый день! Огромная благодарность за видео и знания, которыми Вы делитесь! Прошу помощи! Сложил код, но работает странно: выбирает данные только из первых двух (из 5) страниц сайта. Остальные 3, 4 и 5 просто под номером принтит (согласно коду), но без результатов парсинга данных в файл. Цикл страниц задан верно (1-6). Но, увы и ах...

    • @istories_workshop
      @istories_workshop  Před 2 lety

      Здравствуйте. Попробуйте написать в наш чат t.me/istories_helloworld, не видя ваш код невозможно понять, в чем может быть проблема.
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

    • @valdemarvaldemar4734
      @valdemarvaldemar4734 Před 2 lety

      @@istories_workshop Спасибо за обратную связь, к этому моменту я понял в чем проблема. После второй страницы на сайте появляется "капча". А значит Вашим урокам есть куда развиваться. Ждем предложений :)

    • @alex_grothendieck9701
      @alex_grothendieck9701 Před 2 lety +1

      @@istories_workshop у меня появляется капча ещё на первой странице, совсем не даёт ничего спарсить :(
      Причем пробовал и устройства менять, и сети подключения. Это можно как-то починить? Ну или возможно вы могли бы подсказать какой-то другой сайт вместо КиноПоиска со схожим устройством разделов, чтобы можно было на этом сайте потренироваться?

  • @JohnDoe-hp5kw
    @JohnDoe-hp5kw Před 2 lety

    У меня почему-то периодически выдает ошибку 'NoneType' object has no attribute 'find'
    С чем это может быть связано? Первый раз пишу print и все ОК, а на второй или 3 раз вылезает такая ошибка

    • @istories_workshop
      @istories_workshop  Před 2 lety

      Здравствуйте. Попробуйте написать в наш чат t.me/istories_helloworld, не видя ваш код невозможно понять, в чем может быть проблема.
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @alexdixon2844
    @alexdixon2844 Před rokem +1

    "видим что теперь наш код упорядочен..." - только почему он в реальности выводится в одну строчку?)

  • @sg6630
    @sg6630 Před rokem

    Подскажите как вытягивать из одинаковых тэгов инфу
    12,500.00
    12,721.97
    мне выдает первый тэг и все, остальные как?

    • @sg6630
      @sg6630 Před rokem

      решил сам. Кому интересно. Мы ищем find_all все элементы, потом из списка выбираем то что нужно

  • @constantine_rolls
    @constantine_rolls Před rokem

  • @restsheets2962
    @restsheets2962 Před 2 lety

    Спасибо за видео! А можно также брать информацию из сайта, где постоянно сервер перезагружается. Сайт универа ужасный, если просто вырвать ссылку, то нужно заходить по логину и паролю и всё заново

    • @istories_workshop
      @istories_workshop  Před 2 lety

      Здравствуйте! Сложно сказать, не видя сайт и код. Возможно, придется логиниться каждый раз. Заходите в наш чат t.me/istories_helloworld, постараемся подсказать более детально.
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @Your.m.o.t.h.e.r
    @Your.m.o.t.h.e.r Před rokem

    При добавлении этой строчки
    soup = BeautifulSoup(r.text, "lxml")
    Выдает ошибку
    File "C:\Users\thxmd\PycharmProjects\html_pars\venv\Lib\site-packages\bs4\__init__.py", line 248, in __init__
    raise FeatureNotFound(
    bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?
    Что я делаю не так ?

    • @kos6036
      @kos6036 Před rokem

      попробуй "lxml" в одинарные кавычки 'lxml'

    • @user-no3xn9wk8y
      @user-no3xn9wk8y Před rokem

      Если актуально то обнови lxml (pip install --upgrade lxml), перезагрузи kernel и импортируй все библиотеки заново. У меня сработало.

  • @andrewhkh23
    @andrewhkh23 Před rokem +2

    Ребята, а почему не в pycharm или vs code? там же приходится каждую строчку через print выводить, или же с другими манипуляциями. Новички, в таком случае, не будут понимать основ кодировки. Юпитер это конечно прикольно. Но теряется смысл понимания алгоритмики кода. На win 10 этот юпитер, если честно очень криво работает. Точнее не срабатывает запуск окна ссылками. Приходится через отдельное приложение его запускать. Баг как никак. Недоработка на мультисистемность.
    А так не плохие у вас видео. Но все же разработка, должна вестись по правилам программирования.

  • @gruzin01
    @gruzin01 Před rokem +1

    Спасибо большое за ваши уроки. Вы знаете, что на сегодняшний день ваш урок потерял актуальность так как сайт скорее всего переписали и теперь в объект soup попадает нечитаемая ерунда. Хорошо было бы если бы вы сняли видео как бы продолжение и рассказали как теперь парсить этот сайт.

    • @lifenow6078
      @lifenow6078 Před 11 měsíci

      да, тоже столкнулся с этой проблемой( смогли решить?

  • @rikenbaker1
    @rikenbaker1 Před 3 měsíci +1

    Похоже что сайт стал динамическим и простыми запросами уже данные из него не получить.

  • @TiHbUA
    @TiHbUA Před 2 lety

    Что делать если возвращает ошибку "'NoneType' object is not callable" , после вызова findall?

    • @istories_workshop
      @istories_workshop  Před 2 lety

      То же самое, что и при любой другой ошибке: гуглить ее и читать, как подобные ошибки решали другие. Потому что явно у кого-то было то же самое
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА
      Т..к мы не видим ваш код, то, возможно, вам подойдет этот ответ. stackoverflow.com/questions/41614706/nonetype-object-is-not-callable-when-i-learn-web-scraping
      Если нет - нужно поискать еще)

  • @dicloniusN35
    @dicloniusN35 Před 2 lety

    а как то же самое с мобильным приложением сделать?)

  • @user-hq3nl1yv7k
    @user-hq3nl1yv7k Před rokem

    Скачал пайтон, запустил, открылась системная трока (чёрное окно). Как сделать такой же удобный интерфейс, как у вас?

  • @sikirey4151
    @sikirey4151 Před rokem +1

    код может работать но при следующем включении выдает ошибку:
    'NoneType' object has no attribute 'find'
    понимаю что ошибка связана с тем что какая-то деталь find() - None, но прикол в том что он код работал

    • @timuryuldoshev1609
      @timuryuldoshev1609 Před rokem

      точно такая же проблема...второй атрибут .find и атрибут .get не признаёт. Может bs4 изменился?

    • @user-fn5es6vc1d
      @user-fn5es6vc1d Před rokem

      Тоже столкнулся с такой проблемой. Код работает и при следующем запуске уже не работает поиск, так как исходник пустой. Как я понял, сайт блокает ваш запрос. Ведь сменив сайт и проделав всё тоже самое - таких проблем нет. Это при условии, что вы не ошиблись в самом коде

  • @user-my9sg8we9h
    @user-my9sg8we9h Před 2 lety

    Каждый что то подчерпнет в этом видео. Я вот узнал, что я оказывается дата-журналист. Пойду ХХ шерстить на вакансии )

    • @istories_workshop
      @istories_workshop  Před 2 lety

      День прошел не зря))
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @day_tradingnew
    @day_tradingnew Před rokem

    Если для той страницы что я хочу спарсить требуется авторизация? Как быть в этом случае?

    • @B3CK0FF
      @B3CK0FF Před rokem

      смотреть урок про парсинг с авторизацией) там вроде работа с куками и их сохранение...

  • @codywallker1208
    @codywallker1208 Před 2 lety +1

    Я вот Scraph делаю в VS и все правильно делаю но у меня выходит ошибка None object type Error и я не понимаю почему но я все правильно делаю

    • @codywallker1208
      @codywallker1208 Před 2 lety

      Только не скажите надо гуглить я ютублю а не гуглю ) и от вас хочу узнать проблему

    • @istories_workshop
      @istories_workshop  Před 2 lety

      так если ошибка выходит, значит все-таки что-то неправильно делаете)) Но по комментарию в ютубе сложно понять, что пошло не так, надо видеть код ошибки и ваш код. У нас в описаниях к видео есть ссылка на чатик, куда можно задавать такие вопрос, если вы не хотите задавать их гуглу (мы, как видите, в комментариях отвечаем медленновато)

  • @ambro4580
    @ambro4580 Před 2 lety

    Можно было rfind использовать, мне кажется, когда жанр искали

  • @alexeiiminailov560
    @alexeiiminailov560 Před rokem

    soup=BeautifulSoup(r.text, "lxml") выскакивает ошибка
    NameError Traceback (most recent call last)
    Cell In[12], line 1
    ----> 1 soup=BeautifulSoup(r.text, "lxml")
    NameError: name 'BeautifulSoup' is not defined

    • @user-ur3dt8zd7d
      @user-ur3dt8zd7d Před rokem

      Может у вас библиотека не импортирована?

  • @tengenuzui3907
    @tengenuzui3907 Před 2 lety

    У меня высвечивается None что делать

  • @user-vo6tn6vu1h
    @user-vo6tn6vu1h Před 2 lety

    Алеся крутая

  • @emrullahergun7318
    @emrullahergun7318 Před 2 lety

    Здравствуйте, я хочу извлечь данные с иностранного сайта. За плату. можете вы помочь мне?Пожалуйста, мне нужно срочно((

  • @user-bt7oq3mb6q
    @user-bt7oq3mb6q Před rokem

    Так вот для кого продвигают Python! Иноагентки и иноагенты всех стран, саморазоблачайтесь!

  • @yaroslav1892
    @yaroslav1892 Před rokem +2

    Сначала все работало, а потом find перестал что-либо искать, словно кинопоиск поставил какую-то защиту типа капчи.

    • @sofiam2237
      @sofiam2237 Před rokem

      Как решить эту проблему?

    • @user-fn5es6vc1d
      @user-fn5es6vc1d Před rokem +1

      Допишите юзер агент после юрл. На первые пару запросов хватит. Но это значение нужно бдует менять постоянно. Советую найти другой сайт для практики

  • @user-mc2lu2qb9c
    @user-mc2lu2qb9c Před rokem

    print("Богиня")