SCRAPY - парсинг на PYTHON
Vložit
- čas přidán 11. 09. 2024
- Регистрируйтесь на бесплатный мини-курс с практикой по Python - l.skbx.pro/O3ueHW !
===============
Scrapy: scrapy.org/
===============
Если есть возможность поддержать канал и спасти мир:
🔻 triangle.army/
или
🔻notabug.org/Bl...
🤣 Код смеха (t.me/laugh_code) - все самое смешное из мира IT
🤖 Open Source (t.me/open_sour...) - подборка полезных программ и скриптов с открытым исходным кодом.
💎 МММ (t.me/mmm_triangle) - новости из мира метавселенной, криптовалют, NFT
👻 Привет анон (t.me/hi_anon) - личный блог автора.
😎AliExpress Hacker (t.me/AliExpres...) - хакерские гаджеты для аудита безопасности, слежки, а так же и для противодействия всем этим мероприятиям, одноплатные компьютеры и микроконтроллеры, а также уйма полезной информации по ним
🖥 komp ali (t.me/komp_ali) - компьютерное барахло, мышки, клавиатуры, шнуры, смартфоны, мониторы и тому подобное
🔫 ali for agent (t.me/ali_for_a...) - боевые вещи для самообороны и выживания
#Scrapy #Python #Парсинг
SCRAPY - парсинг на PYTHON
Музон из космических рейнджеров топчик! Спасибо за ролик!
Треугольнику лайк не глядя.
Чесно , вчера пересматривал ролик с селеум и думал уже использовать , телепатия не как иначе😂
Треугольник, привет! Лайк сейчас, но видео посмотрю после работы))
Красавчик, 👍 за группу инэкстремо из старого лагеря 😂
не знал что есть такой фреймворк , КРУТО
Музыка из готики))) Обожаю)
Попробую выразить мысль....)
Т.е если паук уйдет по ссылкам далеко(например на 10М) в глубь ресурса и далее остановиться по X/Y причине, он автоматом 'поднимется' до самой верхней(в самое начало) возьмет следующую ссылку и пойдет дальше? Т.е Он тупо не остановится пока не обойдет все дерево целиком?
там цикл внутри цикла, если шаришь пайтон то сразу поймешь но по сути да
Привет, треугольник! Хотел бы спросить у тебя, планируется ролик о создании собственной электронной почты? Конечно, с chatgpt и прочими это сделать не составляет особого труда, но хотелось бы послушать тебя)
сервак почты на сокетах то?)))
Сам по себе никакой не программист, но потратил 3 дня, что б запустить свой почтовый сервер, настроить домен и подобную чепуху, а все ради того что б наебать ейрбиэнби на 50 баксов
Вместо XPath в scrapy можно использовать CSS. Это намного удобнее) Также, scrapy легко комбинируется с selenium, что может упростить парсинг некоторых сайтов
Легко комбинируется? А Подробнее можно?
За музло из готики лайк не глядя!
Да, хороший фреймворк, давно использую. Но для парсинга уже есть более мощные штуки с фейк юзер агентами, прокси и прочими плюшками.
Годные видосы👍
Скинь ссылки плз
И мне если можно, спасибо
raise NotImplementedError
@@verh010m2 ссылку дать не могу, ибо подобные штуки используют спецслужбы. Но кто знает где искать, тот использует🤐
@@user-xx6yb2cr2h А где искать?
Надо копать дальше, парсинг через Selenium
Seleniumbase имхо поинтереснее
*antibot system like this video*
Кто-то от лола тащится, Камилла на обоине
Камилла 😍
а как насчет с сайтами-приложениями на js?
Js зло
Зашёл чтобы пет-проект сделать, а по факту в рейнджеров пошёл играть
А как можно спарсить контакты любых YT каналов?
А как у него обстоят дела с обходом защиты?
Полезная штука.
А как написать паука с учетом пагинации, чтобы условное имя и прайс собирались не только с первой страницы?
здорово, а нельзя ли на сервере vps ubuntu делать не только парсинг, но и совершать действия через гет и пост запросы с имитацией на нажатие кнопок на гугл-коллаборации? очень нужно для работы. В любом случае спасибо большое за труд, вложенный в это видео!
selenium?
@@montecristo31 чтобы войти в гугл колаборацию, нужно залогиниться под гугл аккаунтом, а в селениуме он не пускает
@@densaface selenium-stelthe
playwright
@@user-uo1oq4qp6n спасибо, интересная штука, буду пробовать
Привет. Случилось такое что парсер почему то дублирует товары с страницы. Я так вижу что это не редкие случаи. Парсю с помощью Web Scraper, может кто знает в чём проблема?
Ролик, конечно интересный, но я слушал музыку из Космических Рейнджеров на заднем плане
Здоров, треугольный!
О, пробував цей фреймворк:) Гарне відео:)👍
А как можно спросить таблицу с сайта, но проблема в том, что таблица грузиться после перехода по ссылке. Пытался использовать selenium и ждать появления таблицы, но он парсит только заголовок таблицы, как я понимаю, потому он подгрущился первым, а остальное тело нет
Дайте команду на прокрутку страницы вниз после ее загрузки.
import time, sleep (5) ??? И попробуй seleniumbase, меньше кода писать
Офк круто, но надо понимать, что scrapy только на linux-подобных системах
Замечательно 👍
zero hour gang
Класс, ни чего нового конечно. Но музыка из рейджеров.. А-х-х-х-х-х-х-х-х-х
Вчера первый раз использовал, супер либа
Наконец то чтото кроме chat gpt и его свободных аналогов
лучше быть депутатом госдумы не нужно ничего знать и получать от 400К или для девушек женой(гражданской) президента
Почему нету ни слова про программу Scrapy GUI?
потому что только хардкор)
Парсинг чего? Сайтов? тю
space rangers 4ever
Готика лайк
▲
Как это возможно 3 просмотра и уже 10 лайков😅
Спасибо
Прервью топ
👍🏻
Я не понимаю python разработчиков - вот зачем тут наследование класса? Для работы скраппера надо изменить всего один параметр и одну функцию, неужели нельзя было сделать обычную функцию, которая принимает функцию парсинга и список ссылок? Почему каждая вторая библиотека говорит "смотри как я могу" и лезет в интерналы питона. Надоело.
хз, я такую муть только на скрапи видел
@@narcomann1646 да тот же стандартный unittest, который даже про декораторы не знает и ищет функции по окончанию названия.
Scrapy является полноценным фреймворком, по типу Django, то есть можно создать проект командой "scrapy startproject" - с готовой файловой структурой, конфигурацией и с инструментами для отладки.
А по поводу изменить только один параметр и одну функцию - на деле далеко не так, показанный в видео пример ну прям очень простой.
К примеру чтобы спарсить какой нибудь сайт с товарами, тебе будет необходимо написать как минимум 3 фукнции:
1. Функция которая парсит все ссылки на категории товаров.
2. Фукнция которая парсит все страницы каждой категории и получает ссылку на каждый товар.
3. Функция которая парсит все характеристики, описание и другие подробности товаров.
И каждая функция вызывается из предыдущей в качестве аргумента(колбэк функция).
@@hehe2390 Ну и в итоге у тебя получается одна функция, которая работает как мост между scrapy и двумя другими, которые являются обыкновенными функциями.
Да и в конце концов, это просто очень странный паттерн. Ни в одном другом языке код не исполняется сам по себе только потому, что он был наследован от другого кода.
Можно ведь просто сделать функцию, которая будет принимать наш класс, это куда логичнее и удобнее.
Ааа, не помню что там в видео, но парсер запускает объект CrawlerProcess, у которого есть метод crawl, который принимает аргументом наш спайдер, это все происходит автоматически, когда мы пишем scrapy crawl. Если я правильно понял, ты думал, что парсер запускается без передачи класса куда либо?@@c4llv07e
Да он святой, чёрт возьми 🎉🎉🎉😊
Можешь показать способ, как пересылать посты из телеграмм канала в телеграмм канал ?
что насчет robots.txt