SCRAPY - парсинг на PYTHON

Sdílet
Vložit
  • čas přidán 11. 09. 2024
  • Регистрируйтесь на бесплатный мини-курс с практикой по Python - l.skbx.pro/O3ueHW !
    ===============
    Scrapy: scrapy.org/
    ===============
    Если есть возможность поддержать канал и спасти мир:
    🔻 triangle.army/
    или
    🔻notabug.org/Bl...
    🤣 Код смеха (t.me/laugh_code) - все самое смешное из мира IT
    🤖 Open Source (t.me/open_sour...) - подборка полезных программ и скриптов с открытым исходным кодом.
    💎 МММ (t.me/mmm_triangle) - новости из мира метавселенной, криптовалют, NFT
    👻 Привет анон (t.me/hi_anon) - личный блог автора.
    😎AliExpress Hacker (t.me/AliExpres...) - хакерские гаджеты для аудита безопасности, слежки, а так же и для противодействия всем этим мероприятиям, одноплатные компьютеры и микроконтроллеры, а также уйма полезной информации по ним
    🖥 komp ali (t.me/komp_ali) - компьютерное барахло, мышки, клавиатуры, шнуры, смартфоны, мониторы и тому подобное
    🔫 ali for agent (t.me/ali_for_a...) - боевые вещи для самообороны и выживания
    #Scrapy #Python #Парсинг
    SCRAPY - парсинг на PYTHON

Komentáře • 77

  • @Daniel-mp7bv
    @Daniel-mp7bv Před rokem +12

    Музон из космических рейнджеров топчик! Спасибо за ролик!

  • @ruslansayfullin6194
    @ruslansayfullin6194 Před rokem +11

    Треугольнику лайк не глядя.

  • @dannicroosser5869
    @dannicroosser5869 Před rokem +4

    Чесно , вчера пересматривал ролик с селеум и думал уже использовать , телепатия не как иначе😂

  • @egorm8952
    @egorm8952 Před rokem +2

    Треугольник, привет! Лайк сейчас, но видео посмотрю после работы))

  • @mak32
    @mak32 Před rokem +2

    Красавчик, 👍 за группу инэкстремо из старого лагеря 😂

  • @DrW1ne
    @DrW1ne Před rokem +3

    не знал что есть такой фреймворк , КРУТО

  • @user-ev8fb6ze6u
    @user-ev8fb6ze6u Před 7 dny

    Музыка из готики))) Обожаю)

  • @ctf59
    @ctf59 Před rokem +2

    Попробую выразить мысль....)
    Т.е если паук уйдет по ссылкам далеко(например на 10М) в глубь ресурса и далее остановиться по X/Y причине, он автоматом 'поднимется' до самой верхней(в самое начало) возьмет следующую ссылку и пойдет дальше? Т.е Он тупо не остановится пока не обойдет все дерево целиком?

    • @nikolyayakimenko6986
      @nikolyayakimenko6986 Před 6 měsíci

      там цикл внутри цикла, если шаришь пайтон то сразу поймешь но по сути да

  • @mkuznetsoff
    @mkuznetsoff Před rokem +8

    Привет, треугольник! Хотел бы спросить у тебя, планируется ролик о создании собственной электронной почты? Конечно, с chatgpt и прочими это сделать не составляет особого труда, но хотелось бы послушать тебя)

    • @cyber_engine
      @cyber_engine Před rokem

      сервак почты на сокетах то?)))

    • @user-tp4id7pc8h
      @user-tp4id7pc8h Před 9 měsíci +1

      Сам по себе никакой не программист, но потратил 3 дня, что б запустить свой почтовый сервер, настроить домен и подобную чепуху, а все ради того что б наебать ейрбиэнби на 50 баксов

  • @Amigun_yo
    @Amigun_yo Před rokem +2

    Вместо XPath в scrapy можно использовать CSS. Это намного удобнее) Также, scrapy легко комбинируется с selenium, что может упростить парсинг некоторых сайтов

    • @МаксКар-н2ц
      @МаксКар-н2ц Před rokem +1

      Легко комбинируется? А Подробнее можно?

  • @decentar9712
    @decentar9712 Před rokem +1

    За музло из готики лайк не глядя!

  • @user-xx6yb2cr2h
    @user-xx6yb2cr2h Před rokem +3

    Да, хороший фреймворк, давно использую. Но для парсинга уже есть более мощные штуки с фейк юзер агентами, прокси и прочими плюшками.
    Годные видосы👍

    • @ericcartman8047
      @ericcartman8047 Před rokem +1

      Скинь ссылки плз

    • @user-eo3nf6wk9i
      @user-eo3nf6wk9i Před rokem +1

      И мне если можно, спасибо

    • @verh010m2
      @verh010m2 Před rokem

      raise NotImplementedError

    • @user-xx6yb2cr2h
      @user-xx6yb2cr2h Před rokem

      @@verh010m2 ссылку дать не могу, ибо подобные штуки используют спецслужбы. Но кто знает где искать, тот использует🤐

    • @ericcartman8047
      @ericcartman8047 Před rokem

      @@user-xx6yb2cr2h А где искать?

  • @dmytrob7336
    @dmytrob7336 Před rokem +4

    Надо копать дальше, парсинг через Selenium

    • @ToNNaG
      @ToNNaG Před 9 měsíci

      Seleniumbase имхо поинтереснее

  • @urbanbionics
    @urbanbionics Před rokem +3

    *antibot system like this video*

  • @instalooker
    @instalooker Před rokem +1

    Кто-то от лола тащится, Камилла на обоине

  • @jerryscrooge
    @jerryscrooge Před rokem +1

    Камилла 😍

  • @aleksandrdemidov6058
    @aleksandrdemidov6058 Před rokem +3

    а как насчет с сайтами-приложениями на js?

  • @Дмитрий-е9р5т

    Зашёл чтобы пет-проект сделать, а по факту в рейнджеров пошёл играть

  • @ATa1ent
    @ATa1ent Před měsícem

    А как можно спарсить контакты любых YT каналов?

  • @user-wb3ks1un8k
    @user-wb3ks1un8k Před rokem +1

    А как у него обстоят дела с обходом защиты?

  • @lesharom2405
    @lesharom2405 Před rokem +1

    Полезная штука.

  • @Hi-gjgruncdun
    @Hi-gjgruncdun Před 8 měsíci

    А как написать паука с учетом пагинации, чтобы условное имя и прайс собирались не только с первой страницы?

  • @densaface
    @densaface Před rokem +1

    здорово, а нельзя ли на сервере vps ubuntu делать не только парсинг, но и совершать действия через гет и пост запросы с имитацией на нажатие кнопок на гугл-коллаборации? очень нужно для работы. В любом случае спасибо большое за труд, вложенный в это видео!

    • @montecristo31
      @montecristo31 Před rokem +1

      selenium?

    • @densaface
      @densaface Před rokem

      @@montecristo31 чтобы войти в гугл колаборацию, нужно залогиниться под гугл аккаунтом, а в селениуме он не пускает

    • @narcomann1646
      @narcomann1646 Před rokem

      @@densaface selenium-stelthe

    • @user-uo1oq4qp6n
      @user-uo1oq4qp6n Před rokem

      playwright

    • @densaface
      @densaface Před rokem

      @@user-uo1oq4qp6n спасибо, интересная штука, буду пробовать

  • @Vinchek
    @Vinchek Před 4 měsíci

    Привет. Случилось такое что парсер почему то дублирует товары с страницы. Я так вижу что это не редкие случаи. Парсю с помощью Web Scraper, может кто знает в чём проблема?

  • @pinggay3234
    @pinggay3234 Před rokem +2

    Ролик, конечно интересный, но я слушал музыку из Космических Рейнджеров на заднем плане

  • @Hayz3301
    @Hayz3301 Před rokem

    Здоров, треугольный!

  • @Anonim-im6ln
    @Anonim-im6ln Před rokem

    О, пробував цей фреймворк:) Гарне відео:)👍

  • @Handri_
    @Handri_ Před rokem

    А как можно спросить таблицу с сайта, но проблема в том, что таблица грузиться после перехода по ссылке. Пытался использовать selenium и ждать появления таблицы, но он парсит только заголовок таблицы, как я понимаю, потому он подгрущился первым, а остальное тело нет

    • @Black_Triangle
      @Black_Triangle  Před rokem +1

      Дайте команду на прокрутку страницы вниз после ее загрузки.

    • @ToNNaG
      @ToNNaG Před 9 měsíci

      import time, sleep (5) ??? И попробуй seleniumbase, меньше кода писать

  • @x_a1r_x
    @x_a1r_x Před rokem

    Офк круто, но надо понимать, что scrapy только на linux-подобных системах

  • @FoxRedmiNote
    @FoxRedmiNote Před rokem +1

    Замечательно 👍

  • @leonidussaks
    @leonidussaks Před rokem +1

    zero hour gang

  • @negonifas
    @negonifas Před rokem

    Класс, ни чего нового конечно. Но музыка из рейджеров.. А-х-х-х-х-х-х-х-х-х

  • @userfromworld
    @userfromworld Před rokem

    Вчера первый раз использовал, супер либа

  • @user-mp4sb5pb4w
    @user-mp4sb5pb4w Před rokem

    Наконец то чтото кроме chat gpt и его свободных аналогов

  • @BasR
    @BasR Před rokem +1

    лучше быть депутатом госдумы не нужно ничего знать и получать от 400К или для девушек женой(гражданской) президента

  • @user-hi4dj9bx8n
    @user-hi4dj9bx8n Před rokem

    Почему нету ни слова про программу Scrapy GUI?

    • @Tosha.V
      @Tosha.V Před rokem

      потому что только хардкор)

  • @haxidenti6001
    @haxidenti6001 Před rokem

    Парсинг чего? Сайтов? тю

  • @rabbitg0r
    @rabbitg0r Před rokem

    space rangers 4ever

  • @user-xi6xo6wy2g
    @user-xi6xo6wy2g Před rokem +1

    Готика лайк

  • @VladMair
    @VladMair Před rokem

  • @konstantinstalnoy9584
    @konstantinstalnoy9584 Před rokem +1

    Как это возможно 3 просмотра и уже 10 лайков😅

  • @user-td3yd6vd6c
    @user-td3yd6vd6c Před rokem

    Спасибо

  • @user-wb3ks1un8k
    @user-wb3ks1un8k Před rokem

    Прервью топ

  • @user-dp7ok2jq7k
    @user-dp7ok2jq7k Před rokem

    👍🏻

  • @c4llv07e
    @c4llv07e Před rokem +1

    Я не понимаю python разработчиков - вот зачем тут наследование класса? Для работы скраппера надо изменить всего один параметр и одну функцию, неужели нельзя было сделать обычную функцию, которая принимает функцию парсинга и список ссылок? Почему каждая вторая библиотека говорит "смотри как я могу" и лезет в интерналы питона. Надоело.

    • @narcomann1646
      @narcomann1646 Před rokem

      хз, я такую муть только на скрапи видел

    • @c4llv07e
      @c4llv07e Před rokem

      @@narcomann1646 да тот же стандартный unittest, который даже про декораторы не знает и ищет функции по окончанию названия.

    • @hehe2390
      @hehe2390 Před rokem

      Scrapy является полноценным фреймворком, по типу Django, то есть можно создать проект командой "scrapy startproject" - с готовой файловой структурой, конфигурацией и с инструментами для отладки.
      А по поводу изменить только один параметр и одну функцию - на деле далеко не так, показанный в видео пример ну прям очень простой.
      К примеру чтобы спарсить какой нибудь сайт с товарами, тебе будет необходимо написать как минимум 3 фукнции:
      1. Функция которая парсит все ссылки на категории товаров.
      2. Фукнция которая парсит все страницы каждой категории и получает ссылку на каждый товар.
      3. Функция которая парсит все характеристики, описание и другие подробности товаров.
      И каждая функция вызывается из предыдущей в качестве аргумента(колбэк функция).

    • @c4llv07e
      @c4llv07e Před rokem

      @@hehe2390 Ну и в итоге у тебя получается одна функция, которая работает как мост между scrapy и двумя другими, которые являются обыкновенными функциями.
      Да и в конце концов, это просто очень странный паттерн. Ни в одном другом языке код не исполняется сам по себе только потому, что он был наследован от другого кода.
      Можно ведь просто сделать функцию, которая будет принимать наш класс, это куда логичнее и удобнее.

    • @hehe2390
      @hehe2390 Před rokem

      Ааа, не помню что там в видео, но парсер запускает объект CrawlerProcess, у которого есть метод crawl, который принимает аргументом наш спайдер, это все происходит автоматически, когда мы пишем scrapy crawl. Если я правильно понял, ты думал, что парсер запускается без передачи класса куда либо?@@c4llv07e

  • @user-ur9kc4sb3l
    @user-ur9kc4sb3l Před rokem

    Да он святой, чёрт возьми 🎉🎉🎉😊

  • @garytopor8005
    @garytopor8005 Před rokem

    Можешь показать способ, как пересылать посты из телеграмм канала в телеграмм канал ?

  • @galkin_anton
    @galkin_anton Před 5 měsíci

    что насчет robots.txt