Парсим товары Ozon с помощью Python
Vložit
- čas přidán 19. 06. 2024
- Получаем данные о товарах в формате JSON.
С июня 2022 этот способ не работает, так как на сайте была установлена защита CloudFlare.
Поблагодарить и поддержать канал:
pay.cloudtips.ru/p/118e1f87
00:00:00 Как ozon подгружает данные
00:06:13 Отправляем запрос - получаем данные в формате json
00:08:25 Как искать нужный запрос с помощью *.HAR
00:13:00 Как из json вытащить нужные данные
00:26:00 Мудрый совет
00:29:13 Выгружаем данные в таблицу
Также в видео - два мудрых совета: как работать медленно, чтобы получать быстрые результаты и что должно быть "результатом" любой работы.
#ozon #парсинг
Ссылка на скрипт в видео:
gist.github.com/DxDiagDx/710a...
Телеграм-чат про парсинг:
t.me/proparsing
Для связи пишите:
Почта lukin@usota.ru
WhatsApp +79053311246
Telegram @lukin_ea
Профи.ру - profi.ru/profile/LukinEA8/
Евгений, спасибо! Очень нравятся видео на тему парсинга. Продолжайте в том же духе!
Спасибо ☺️
Спасибо за гайд! Будет полезно новичкам как урок для простого реверса
Спасибо большое за видео. Вы ответили на многие вопросы.
Супер! Было полезно, спасибо!
Очень круто, спасибо!!!
Ну хоть один человек сделал толковое видео
Тёзка, здравствуйте. Смотрю видео. Дошел до момента -Вступайте в чат- и вступил.))) 1 156 человек уже в чате. Начал парсить, вопросов куча. Уверен, там помогут. Почему уверен? У меня есть подобный чат по питону. Там всегда ребята помогут. Постебаются, как же без этого?! Но не со зла. Так, смеха ради. Но помогают. А тут еще и парсинг. Так сказать узконаправленный чат. Класс!
Добрый день, отличный контент у Вас, дико недооцененный канал ! Сделайте пожалуйста обучающее видео, как заполнить форму авторизации пост запросом, только не на простеньком сайте, а на каком нибудь популярном, потому что популярные сайты, ставят всякие препоны джаваскриптами и прочим, чтобы это было сделать сложно
спасибо
способ помог, обошел проверку ботов через undetected_chromedriver и сохранил страницу с запросом api как html и через lxml уже все распарсил и получил чистый json
Отличное решение 👍
Только undetected_chromedriver помог? без селениума совсем никак сейчас не распарсить?
@@user-gk1rn5lm6t без селениума не получилось, так же пытался воспользоваться cloudscraper (requests) и увы не вышло
а сейчас есть рабочие варианты парсить отзывы с Ozon ?
А как сделать так, чтобы скачивать инфу по множеству товаров?
И ещё Просьба ответить какой редактор json вы используете, а то на видео не очень понятно. Вс, это вижуал студию?
Да, VS Code.
@@usota Евгений, спасибо большое за ответ.
А есть ли какой-то простой алгоритм парсить json сразу множества товаров. Ну например по товарной группе.
Да, алгоритм такой же. Открываем товарную группу и смотрим, по какому запросу отдаётся список товаров.
Потратил несколько дней чтобы понять, что спарсить по этой методе не получится из-за cloudflare , а потом прочёл описание к видео
Да, в парсинге постоянно всё меняется. Но это хорошая новость - без работы не останемся )
@@usota ждём видео как обойти))
Любое видео по selenium
У меня получилось, только я использовал react js никакую защиту не обходил для работы с api использовал axios
в этом api запросе не нашел одного из самого главного - цены, кто-нибудь в курсе откуда ее вззять?
Добрый день, скрипт до сих пор актуален? Не удается спарсить таким образом на php curl.
Прямым запросом уже не получится, сайт обнаруживает скрипт.
@@usota спасибо за ответ, есть ли выход?
К сожалению, в php не знаю. Но мы разбирали этот вопрос в нашем чате t.me/proparsing
@@usota большое спасибо!
какие плагины вы додавали?
Не понял вопрос, уточните?
На 7:52 выдает ошибку requests.exceptions.JSONDecodeError: Expecting value: line 1 column 1 (char 0)
Этот парсер уже не актуален, причина - в описании. Соответственно, ничего не получив, парсер и выдаёт ошибку)
подскажите плиз, а если я не вижу значка как у Вас поиск, а только масштаб, что делать? 3:58
Немного не понял вопрос… Окно поиска я вызываю комбинацией клавиш Ctrl + F
@@usota хотел узнать как вызывать окно поиска, благодарю!
В консоли есть иконка фильтра
Только присоединился к каналу, но пробежал глазами по каналу и немного посмотрел. А нету видео где происходит парсинг двух и более сайтов в одном скрипте?
Даже не представляю, когда это может потребоваться. Приведите пример задачи?
@@usota в моем случае поиск работы по стране (не РФ) так как отсуствует общий агрегатор и присутствует большое количество сайтов представляющие вакансии. Фактически они однообразные по структуре.
У меня много похожих проектов, но все делаю по одной схеме - под каждый сайт свой парсер с единой базой данных. Так проще обслуживать парсеры. А ломаются они регулярно )
Сделайте свой агрегатор 😁
@@usotaнапример агрегатор ставок букмекерских контор, - вилочники за это готовы платить гигантские деньги ))
Скачал pycharm, установил requests, повторил все в точности по видео - получаю ошибку 1, в тексте ошибки вижу в начале просьбу включить javascript, а дальше по тексту вступает cloudflare и просит ввести капчу
что нужно сделать/установить/настроить, чтобы повторить тот же самый код, что и у вас на видео (на момент получения сырого json в принте в первой трети видео), чтобы все заработало?
Код из видео ещё не знал про блокировку, поэтому нужно доработать, может попробовать Селениум
@@usota то есть с момента записи и публикации видео Озон принял меры против парсинга?
Да, с 19 мая по моим ощущениям
@@usota ждём от вас новый видеоурок 😁
Будем разбираться ) Если будут идеи или другие вопросы - пишите в чат по парсингу, там обсуждаем эту тему.
так понимаю такими рода запросами не получится пользоваться - озон быстро забанит либо капчу выставит
Да, этот способ уже не актуальный.
хорошо когда ты шаришь (( а я как баран на новые ворота ((
Поверьте, я тоже знаю чуть больше 1%. Опыт приходит со временем.
The Mezanam
маякните как будет найдено какое-то решение против блокировки
У нас в телеграм-чате есть варианты решений, ссылка есть в описании, присоединяйтесь
Парсинг одного товара - это конечно круто. Но если мне нужно спарсить категорию. А там нужен поиск товаров. Список адресов. Это уже все реально сложнее.
А выйдет видео о том, как обойти эту защиту cloudflare ?
Я думаю не будет. В таких случаях остаётся использовать Селениум. А по селениуму полно видео уже снято, вряд ли я сделаю лучше.
@@usota Наверное вы правы, спасибо за ответ
@@usota cloufare не обходится sileniumom
Возможно вы правы.
не работает почему-то 7:50.
Да, в описании добавил об этом инфо
@@usota ааа, ок!
В данный момент данный способ не работает
Да, верно - с июня 2022 года сайт защитил доступ к api с помощью CloudFlare.
Отличная идея, спасибо 🙏
Ну хоть один человек сделай толковое видео
вся суть парсинга сводится к тому, как на этом потом легально заработать
иначе это хобби
Разве парсинг - это нелегально?
@@usota сам парсинг нет, а вот использование того, что вы собрали в коммерческих целях - уже совсем другое.
одно дело, если вы риэлтор, и собрали для себя свежую инфу автоматически, а если вы это завернули в проект, и продаете базу многим клиентам - это уже вам юристы гигантов объяснят. С авторскими правами і тд. Они живут с платных услуг, которые вы у них отбираете.
Но все зависит от ваших юристов).
Если наложат арест на ваше имущество на время рассмотрения в суде, и не будут никуда спешить. Вам это не понравится.
именно по этому он серый))) и лучше делать это не публично. И именно поэтому парсеры только парсят, и дальше не идут(или говорят что не идут).
Как и вся муть в телеграм каналах ведь уголовно не наказуемая. Пока вы понемногу стрижете пассивных пользователей. Но когда потери будут у гигантов, сразу найдутся инструменты познакомится с вами)) тоже с серого инструментария.. А дальше у кого шары прочнее. Не каждый умный айтишник - морально крепкий айтишник). Особенно если о нем много информации и рычагов влияния.
Или поработаете на дядю на его условиях, если вы хороший спец)). Сейчас люди пропадают даже на высоких должностях, а какого там айтишника удалить не сложно.
Или идти в паблик максимально. Но паблик не про парсинг. Там вашим действиям понимания не будет. А если еще подсветят типа "из-за ваших действий сайт лежал 2 дня", ищите где это опровергнуть(на такую же аудиторию).
@canal-bx8wr вы правы на 100%. Я к тому, что парсинг - это легально. Использовать данные парсинга в коммерческих целях - тоже легально, если все стороны согласны, как например поставщик, который предоставляет данные по API, например тот же Озон для своих селлеров. Парсинг - это обычный легальный бизнес, как и фермерство. Просто нужно знать, какие растения можно сажать, а от выращивания, обработки и продажи каких лучше отказаться.
Спасибо за развернутый комментарий.
Не понял только про паблик. Что значит идти в паблик максимально?
@@usota то что поставщик сам дает - это понятно, это детский сад)) но вот если поставщик тратит на защиту от другого парсинга огромные средства, а его данные продают - это уже не хорошо)
И за это по рукам дают.
И если пришли уже по бесприделу (не спрашивая законен ли ваш парсинг или нет) - иногда публичность может откатить назад подобный наезд.
Или вас по тихому закроют, и об этом никто не узнает.
Но для этого нужны независимые СМИ.