Парсим сайты конкурентов с помощью Python | Часть 1 | Web Scraping Python

Sdílet
Vložit
  • čas přidán 3. 08. 2024
  • 🔥 Курс по Python: python.smysl.io/
    🎬 Плейлист про настройку рабочей среды:
    Настройка рабочей среды для разработки на Python
    • Настройка рабочей сред...
    СОДЕРЖАНИЕ
    00:00 - Начало
    00:54 - Как работает парсинг
    04:51 - Библиотека requests
    08:15 - HTML-тэги
    14:17 - Библиотека beautifulsoup
    23:55 - Обработка пагинации
    33:21 - Ограничения
    ОБО МНЕ
    👋 Привет! Меня зовут Алексей. Я работаю в IT, занимал ключевые позиции в Групоне, Gett, Яндекс-Логистике и Osome. Я люблю преподавать, и у меня получается делать сложные вещи понятными. Хочу помогать людям не бояться нового и понимать, как технологии могут сделать нашу жизнь лучше.
    📢 Канал в Телеграме: t.me/kulichevskiy

Komentáře • 37

  • @MrSunTrope
    @MrSunTrope Před 2 měsíci +1

    Леша, у тебя такая грамотная речь и внешка киноактера, в кино нужно сниматься))

  • @epifanovmaxim1
    @epifanovmaxim1 Před 6 měsíci +3

    Леша, у тебя супер канал!пожалуйста, не останавливайся :)

  • @user-qr4un8on3e
    @user-qr4un8on3e Před 2 měsíci

    спасибо большое! сейчас занимаюсь изучением самостоятельно, Вас очень приятно и, главное что, понятно!!! слушать. Очень интересно и все получается)

  • @nikitasherstianykh9155
    @nikitasherstianykh9155 Před 6 měsíci +2

    Интересно - продолжайте пожалуйста)
    Особенно интересно как работать с случаем, когда данные появляются в всплывающем окне -> Например сайт где по нажатию кнопки "Контакты" всплывает окошко с контактами. Нажатие кнопки отправляет доп. запрос и по сути дополняет главный HTML блоком кода.
    Спасибо🙌🏻🙌🏻

  • @Lancelot.Official
    @Lancelot.Official Před 6 měsíci +1

    Спасибо за бесценный урок. Жду с нетерпением второй части

    • @Lancelot.Official
      @Lancelot.Official Před 6 měsíci +1

      А нет, уже оказывается вышло. Бегу смотреть.

    • @kulichevskiy
      @kulichevskiy  Před 6 měsíci +3

      Там и третья часть вышла :)

  • @nikolaynikolay8019
    @nikolaynikolay8019 Před 2 měsíci +1

    Приятно слушать, классные усы

  • @greenanimal4596
    @greenanimal4596 Před 27 dny

    крутые усы, можно было бы получить данные с json файла и оттуда вытащить пагинацию

  • @furniture202
    @furniture202 Před 5 měsíci

    Пришел по настройке окружения, так дальше и остался, смотрю, все, что выходит! Спасибо!
    Парсить и сайты под логином и капчи - все интересно!
    а шлифовалок уже больше на сайте =)

  • @user-eo3nf6wk9i
    @user-eo3nf6wk9i Před 6 měsíci

    Было бы славно посмотреть про капчи и прочие трудности, по типу ютуба

  • @kulichevskiy
    @kulichevskiy  Před 6 měsíci +1

    🔥 Курс про автоматизацию рутины с помощью Python: python.smysl.io/

  • @ИгорьДобровольский-й1о

    а если у сайта защита cloudfare типо того то деать ?
    как это обойти

  • @sabirsadykov270
    @sabirsadykov270 Před 6 měsíci

    опачки пошли просмотры👍🏻

  • @kostyan6368
    @kostyan6368 Před 6 měsíci

    Здравствуйте. А парсить цены p2p на bybit или huobi так можно?

    • @kulichevskiy
      @kulichevskiy  Před 6 měsíci +1

      Думаю да, но, наверное, есть более простой способ. У обеих бирж есть API.

    • @kulichevskiy
      @kulichevskiy  Před 6 měsíci +1

      (бесстыжее промо) Приходите на курс, там будем учиться работать с API :)

  • @alexzakr
    @alexzakr Před 5 měsíci

    Я бы упростил условие для цикла while, посмотрев какой респонсе код выдаёт номер за границей диапазона.

    • @kulichevskiy
      @kulichevskiy  Před 5 měsíci

      Хорошая идея, только там всегда 200 было. Страничка ж генерится, просто на ней нет ничего.

    • @alexzakr
      @alexzakr Před 5 měsíci

      @@kulichevskiy, посмотрел, как делают на форонде на нескольких сайтах. Заметил, что при превышении числа страниц часто возвращают последнюю. Может на этом условие сделать?
      В целом, очень хочется вас поблагодарить за мега профессиональный контент. Большое удовольствие и польза от вашего канала.

  • @bespalove4882
    @bespalove4882 Před měsícem

    Добрый день!
    Подскажите, на какой должности можно работать с такими знаниями?

    • @kulichevskiy
      @kulichevskiy  Před měsícem

      А на какой вы хотите?

    • @bespalove4882
      @bespalove4882 Před měsícem

      Я не плохо знаю js и python . Умею работать с selenium и pandas. Нравится парсить сайты. Могу работать с бд. На какой должности можно работать с такими знаниями? Аналитика?

    • @kulichevskiy
      @kulichevskiy  Před měsícem

      @@bespalove4882 Например, да. В общем, на какой хотите :)

  • @sledocktv7893
    @sledocktv7893 Před 6 měsíci

    А когда набор на курс?

    • @kulichevskiy
      @kulichevskiy  Před 6 měsíci +1

      Я думаю, что продажи откроются через 2-3 недели. Подпишитесь на сайте, я пришлю приглашение на вебинар

  • @art_alf-b9b
    @art_alf-b9b Před 5 měsíci

    где код?

  • @user-ye5hv3us3e
    @user-ye5hv3us3e Před 5 měsíci

    а как 403 сайты парсить? только не нужно про хэдерсы их замена не помогает как и замена ип

    • @kulichevskiy
      @kulichevskiy  Před 5 měsíci

      Послушайте, надо разбираться. Вообще обычно подстановка cookie помогает. Возможно, стоит попробовать selenium - там прям логин и пароль ввести можно

    • @user-ye5hv3us3e
      @user-ye5hv3us3e Před 5 měsíci

      а как подставить куки в силениум чтобы браузер воспринимал пользователя как пользователя а не силениум чтобы обойти 403? @@kulichevskiy

  • @user-eo3nf6wk9i
    @user-eo3nf6wk9i Před 5 měsíci

    Что за тема в VsCode?

  • @cryptohyde
    @cryptohyde Před 5 měsíci

    29:53 max_page последний элемент, зачем мудрить с дальнейшим переводом в интеджер всех элементов для поиска максимального. Ну и комент к концовке - про парсинг простых сайтов контента хоть отбавляй, как парсить сложные сайты?

  • @timapigolev1640
    @timapigolev1640 Před 3 hodinami

    Доктор кокс?

  • @user-sj7wt3fp6f
    @user-sj7wt3fp6f Před 2 měsíci

    усы это треш какой-то...