Обучение парсингу на Python #6 | Как собрать информацию с любого сайта | Requests BS4 Selenium

PythonToday

zhlédnutí 89 440

Přidat do
- Můj playlist
- Přehrát později
Sdílet

Sdílet

Vložit

Velikost videa:

Zobrazit ovladače přehrávání

Automatické přehrávání

Přehrát

čas přidán 27. 03. 2021
Обучение (Web-Scraping) веб парсингу на Python. В данном видео рассматриваем как и откуда подгружается контент на динамический сайт, используем библиотеку requests и GET запросы к API, парсим данные с помощью Beautifulsoup, а также рассматриваем как можно получить данные и сохранить страницу с помощью Selenium webdriver.
🔥 Доступ в приват | Поддержать проект:
boosty.to/pythontoday
/ pythontoday
yoomoney.ru/to/410019570956160
🔥 Стать спонсором канала:
/ @pythontoday
****Ссылки****
Музыка из видео:
www.epidemicsound.com/referra...
Дешевый/надежный сервер в Европе:
zomro.com/?from=246874
promo_code:
zomro_246874
Хороший proxy сервис:
proxy6.net/a/149995
Крутой заказ на фрилансе | Подбираем забытый пароль к Excel файлу с помощью Python
• Крутой заказ на фрилан...
Пишем Telegram бота на Python + Загружаем Telegram бота на сервер(хостинг):
• Пишем Telegram бота на...
Плейлист по парсингу сайтов на Python:
• Парсинг/Scraping
Плейлист по Instagram боту:
• Instagram Bot на Pytho...
Firefox driver:
github.com/mozilla/geckodrive...
Chrome driver:
chromedriver.storage.googleap...
Код проекта на github:
github.com/pythontoday/scrap_...
И в telegram канале:
t.me/python2day
****Соц.сети****
Telegram: t.me/python2day

Komentáře • 222

@maryan1780 Před 3 lety ⁺⁵
Дуже цікаво і практичні приклади. Молодець. Почну вивчати програмування по Ваших прикладах, практичний досвід реальний. Дякую!!!!!!!!!!!!
@andrusski7862 Před 2 lety ⁺³
Спасибо большое за такой отличный контент 👌👍 Благодаря ему втянулся в тему парсинга и сейчас работаю над своим первым проектом в этом направлении. Хотелось бы ещё отдельное видео, посвящённое теме заполнения форм на сайте с использованием requests. Спасибо 🤝
@return_1101 Před 3 lety ⁺¹⁸
Спасибо. Для меня вы гений.
Я уже 7 месяцев учу Питон (и в целом програмирования и линукс). Спасибо за качественые видео!
Блогодаря таким людям как вы, новичкам легче учить!
Буду дальше учить.
Удачи и вам!!!
@PythonToday Před 3 lety
Благодарю за фидбэк! Но я только учусь как и ты)
@work_user1510 Před 2 lety
Как успехи спустя столько времени?
@return_1101 Před 2 lety
@@work_user1510 Уже к лучшему. На степике сейчас делаю курсы. Там очень качественные курсы.
@Lelouch- Před 10 měsíci
@@return_1101 чё там с прогрессом ?
@user-iw2bv5ep8o Před rokem ⁺¹
Спасибо большое за видео!!! Ваши видео просто офигенны! Немного теории + море практики + дополнительная инфа для конкретных задач, которые в будущем может встретить любой парсер
@user-iw2bv5ep8o Před rokem
P.S. Во время учёбы у меня возникло 2 ошибки и может, кому пригодиться мой опыт, ну-с начнём.
Первая ошибка: DeprecationWarning: executable_path has been deprecated, please pass in a Service object
Если хотите посмотреть решение в инете вбейте эту ошибку в поисковик и перейдите по первой ссылке. Лично мне, помог совет от пользователя Мори опубликованный 08.11.2021.
В чём суть ошибки? Просто библиотека обновилась и параметр, который я использовал executable_path устарел.
Решил ошибку так: driver = webdriver.Firefox(
options=options,
service=Service("C:/Users/N/PycharmProjects/Парсер сайтов/Lesson7/geckodriver"))
Заменил устаревший параметр на объект типа Service()
@user-iw2bv5ep8o Před rokem ⁺¹
Вторая ошибка: 'charmap' codec can't encode character '\u25b9' in position 7943: character maps to
Нашёл ответы в инете, но они оказались не для новичка, как я. Да и решения ошибки были основаны на объёмненьком коде, что мне не понравилось. Поэтому начал решать проблему сам. Вспомнил, что такая же ошибка встречалась в каком-то прошлом уроке из плейлиста.
Решил ошибку так:
with open("index_selenium.html", "w", encoding='utf-8') as file:
file.write(driver.page_source)
Добавил в параметры записи кодировку utf-8.
P.P.S Комментарии удалились во время печати, поэтому пришлось дважды писать одно и тоже :(
@user-LvSerg777 Před 10 měsíci
Вернулся в данный плейлист после краткого ознакомления с selenium. Летим дальше! Спасибо Автору!
@PythonToday Před 10 měsíci ⁺¹
Благодарю!
@vladimirzelov Před 3 lety ⁺²
Братишка ты просто Красавчек, мотал я душу гугловским алгоритмам, как я долго тебя искал ....... Четко и по делу !!!!!!! Не бросай это дело
@PythonToday Před 3 lety
Благодарю 💪
@vigauss1889 Před 3 lety ⁺³⁴
Котан снова в деле 😀👍 Спасибо тебе за практику! Аналогов не сыскать. з.ы, не думал постримить, пообщаться "вживую"? Думаю много кто подключится.
@PythonToday Před 3 lety ⁺⁸
Спасибо за фидбэк! Думал, но всё никак не решусь. Надо уделить час и разобраться как стрим работает. Да и 200% все про программирование будут спрашивать, а хотелось бы обо всем) Может на 10к соберемся 😀
@vladislavkachaev6507 Před 3 lety ⁺²
@@PythonToday яб тоже подтянулся было бы прикольно! котэ +1
@user-bh5gt3ew9t Před 3 lety
@@PythonToday я в деле босс.
@santilochannel5701 Před 2 lety
@@PythonToday уже 100+ к 😃 Когда сбор?))
@sia_si Před 3 lety ⁺²
Спасибо за очень полезный и структурированный контент! После ваших видео не остается ни одного вопроса, а появляется желание открыть атом и начинать писать код :) Хотелось бы увидеть видео о сборе спарсенной инфы в бд (например, sqlite). Столкнулась с проблемой засовования вложенных словарей причем разной структуры и перелопатив интернет ничего годного не нашла. Благодарю за ваш труд!
@user-yd2ye9ls4d Před 3 lety ⁺²
Как всегда на высоте! Больше видео про парсинг богу видео про парсинг! :)
@PythonToday Před 3 lety
Спасибо за фидбэк!
@user-cb2ip1ft6v Před 2 lety
Ты бы знал как я рад, чуть стул не сломал во время прыжка на радостях XD Спасибо огромное!!!
@1speede1 Před 2 lety ⁺³
Опа, оказывается в Python есть библиотека эмулирующая работу браузера. Познавательно, полезно, прекрасно. Благодарю за ценное видео.
@PythonToday Před 2 lety
Благодарю за фидбэк! Рад что видео полезны)
@user-LvSerg777 Před 10 měsíci
Спасибо за видео! Пойду просматривать плейлист по selenium.
@PythonToday Před 10 měsíci ⁺¹
Рад что полезно, спасибо за фидбэк!
@kat_katchinskiy Před 8 měsíci
Спасибо, не хватало этого.
@dieselekin Před 2 lety
Спасибо тебе. Ты очень доступно объясняешь !!!
@PythonToday Před 2 lety
Благодарю!
@user-bh5gt3ew9t Před 3 lety ⁺⁹
за котяру отдельный лайк =)
@dimitrishat8659 Před 2 lety
Хороший контент. Благодарю. Интересно и информативно.
@PythonToday Před 2 lety
Большое спасибо!
@sergeikrasnovskii9767 Před 3 lety ⁺²
Как всегда супер видео!
@PythonToday Před 3 lety ⁺¹
Спасибо!
@mak32 Před 2 lety
Спасибо большующее! Продолжай делать такие разборы - очень сильно прокачивают нас. Хотелось бы увидеть ролик, где чтобы получить необходимые данные, надо сначала что-то заполнить в input или select, и только после этого появляется страница, которую надо спарсить
@PythonToday Před 2 lety
Благодарю за фидбэк!
@user-qt1bh5qj2d Před 3 lety
Спасибо, шикарно, мне этого не хватало
@PythonToday Před 3 lety
Благодарю
@user-eu3yh1qd4e Před 3 lety ⁺¹
Огромное спасибо за ваш труд! Это лучший контент. Мне 41 и я решил обучиться программированию для воплощения своих идей в программы которые помогут мне работать с финансами и активами. Но для того, что бы это воплотить я должен понять как всё это работает! Очень много для меня новой, неизведанной информации которая удивляет и завораживает. Изучать новое и не понятное для меня, одно удовольствие. Читать книги это важно, но без практики и хорошего человека который объяснит как это работает очень сложно. Очень много вопросов как это всё работает и всегда хочу находить ответы. Ваш контент отвечает не на все мои вопросы но помогает обрести понимание и самое главное навыки. Благодарю еще раз за ваш труд. Не бросайте это дело так как мало Русского контента который помогает новичкам обрести понимание да и не только новичкам. Да и огромный потенциал в этом направлении как для вас так и для нас.
@kandreyk9159 Před 3 lety ⁺¹
это вам надо в сторону датасаенс смотреть (jupyter notebook), если ремесло программиста для вас не главное, то на программировании вы только время потеряете
@PythonToday Před 3 lety ⁺²
Большое спасибо за фидбэк) Меня как и вас, программирование привлекает безграничным потенциалом возможностей. Успехов в изучении 💪
@bazingos6738 Před 2 lety
Отличнейший контент! Спасибо тебе большое!
@PythonToday Před 2 lety ⁺¹
Спасибо за поддержку!
@CalmDepth Před 3 lety ⁺¹
спасибо.здорово.было бы интересно посмотреть ролик,где больше активных действий типа click, onclick, onmouse. а так же парсинг через selenium shadow dom. или же парсинг json
@user-cm1cg2sb1l Před 2 lety
Очень здорово! Спасибо Вам!
@PythonToday Před 2 lety
Благодарю за фидбэк!
@kirv2482 Před 3 lety
Только залетел))) и уже лайк и подписка!
@PythonToday Před 3 lety
Спасибо!
@user-zo6yb6jf4o Před 3 lety
Коротко и ясно. Спасибо.
@PythonToday Před 3 lety
Благодарю!
@user-go3fe1bl7r Před 3 lety ⁺¹
Очень клёво)) Есть наработки по парсингу у меня но это тоже очень полезно)
@PythonToday Před 3 lety
Спасибо за фидбэк!
@Silver_men_rev Před 3 lety
Все шикардосно и полезно, не могу понять людей которые дизы ставят, больше чем на 100% уверен что это те которые сами ни чего делать не могут.
@PythonToday Před 3 lety
Благодарю 👍
@user-bh5gt3ew9t Před 3 lety
это паходу двоешники дизят
@gaidjiin9977 Před 3 lety
Спасибо тебе огромное)))
Видео супер)
@PythonToday Před 3 lety
Благодарю 💪
@set1qs Před rokem
Вау! Просто вау! Буду тестить данный метод с сайтом Zillow который уже сломал мне мозг )) обожаю этот канал!
@PythonToday Před rokem
Большое спасибо за поддержку!
@user-ik5hn2hi8d Před 3 lety
Спасибо за урок)
@dimk7983 Před 2 lety
Спасибо, очень интересно и полезно.
@PythonToday Před 2 lety
Спасибо за фидбэк, рад что помогает!
@user-xo2bl2vz3o Před 4 měsíci
Благодарю за урок
Сегодня такое как раз было, столкнулся с невидимыми див блоками
@TheHellishFrog Před 2 lety
Спасибо уважаемому автору! Идея для будущего урока: Парсинг и сохранение видео-стримов и данных в формате blob:http
@user-mz6bg7cf6g Před 3 lety
Всё круто! Спасибо за видео, только у меня вопрос, а нужно ли ставить слип после get запроса на страницу в селениуме? Как я понял запрос сам по умолчанию ждет когда страница прогрузиться, или я ошибаюсь?
@alekseytrump1586 Před 2 lety
кошак просто стал символом канала. Крутой кошара
@PythonToday Před 2 lety
Спасибо))
@user-cr2yu3tl4w Před 3 lety
Видео полезно...👍
Автор подскажи варианты пожалуйста тессеракт или опенСиВи для распознование текстовый картинок?? (Для капчу, мне скорость распознование очень важно)
@Jimmyyroblox Před rokem
Спасибо большое, с первым методом у меня не получилось, когда я переходил по ссылкам сайт меня перенаправлял на главную страницу, а вот со вторым метод все отлично, спасибо за такой контент
@PythonToday Před rokem
Спасибо за фидбэк!
@road2zion2 Před 3 lety
Спасибо! Полезно!
@PythonToday Před 3 lety
Благодарю за фидбэк!
@silvertruenoobs340 Před 2 lety ⁺¹
После просмотра видео пошел и залпом просмотрел плейлист по Selenium, и если я правильно понял, он больше служит для автоматизации работы с браузером, ну и для тестов где требуется имитировать нажатия клавиш и взаимодействея с различными элементами на странице.
При этом, хоть часть его функционала и позволяет возвращать данные со страниц что бы их сп... кхм... спарсить)), на практике получается bs или чистый lxml будет более правильным выбором, т.к. меньше грузят систему и в целом более ориентированы под данную работу, следовательно имеют более широкий функционал и производительность (например если нужно обработать большой массив данных).
Selenium же больше подойдет, если по какой либо причине сайт жмотит данные через отправку запросов (хотя тут оч странно, ведь эмулируя взаимодействие с элементом, например кликом по кнопке, мы по сути просто активируем скрипт отправляющий запрос с определенными параметрами, на сервер... хотя может я и ошибаюсь, поправьте пожалуйста если что не так, буду знать на будущее), то есть когда для того что бы позаимствовать информацию с сайта, нам проще (или необходимо) имитировать взаимодействие пользователя со страницей и собрать данные с прогруженной страницы.
@rand_name6734 Před 3 lety ⁺¹⁷
А диз поставил админ сайта ))
@PythonToday Před 3 lety
Ну 😀
@Andre-ni2ev Před 3 lety
Хороший видос!
@PythonToday Před 3 lety
Благодарю 😀
@user-ge9wn2tu9l Před 3 lety ⁺⁵
Мне кажется пора на частичную монетизацию курсов для новичков надо переходить. Всё видео классные. Было бы прикольно обучаться по группам (платно естественно)
@PythonToday Před 3 lety ⁺¹
Давно вынашиваю идею платформы. Но я далеко не профессионал. Веду несколько человек персонально, на всё времени не хватает)
Благодарю за фидбэк!
@user-ge9wn2tu9l Před 3 lety ⁺¹
@@PythonToday да хотя 5 или 10 норм будет. Остальные пуска ждут. Так больше мотивации учится ждущих будет
@kolotovalexander Před 3 lety ⁺⁶
Очень интересно, хотя я в программировании совсем ламер)
@PythonToday Před 3 lety ⁺⁶
Спасибо, вливайся, учиться никогда не поздно!
@namspavlova4826 Před 3 lety
Привет, можно с помощью этих библиотек скачать картинку с лучшим разрешением через «поиск картинки в гугле»? Если нет, то какими библиотечками воспользоваться?
@user-sc5yk5wk3x Před 3 lety
Добрый день. Спасибо за видео очень интересно. Немого бы подсказать. Как сделать парсинг с сайта с тестами и как в итоге получается. Спасибо
@user-ur2id1ut9k Před rokem
Очень круто . Как раз именно на это месте вчера остался сам учусь . Только у меня момент может быть такое например CZcams selenium открывает так же сохраняю страницу в переменную но там не все ? Это проблема в загрузке или есть что то еще чего я не знаю ??? Пожалуйста 🙏 ответь
Огромное спасибо тебе за труды
@AnatoliyUshtan Před 3 lety ⁺¹
Топ!!!
@PythonToday Před 3 lety
Спасибо!
@bohdansteshenko5342 Před rokem
День добрый. Смотрю, что работаешь через Visual Studio. Такой вопрос, а как была решена проблема с "UTF-8"? Я делаю запросы на наши сайты , а мне выдает ошибку по этому шифрованию. Когда делаю на английские, то все норм. Как решился вопрос с кириллицей?
@user-bh5gt3ew9t Před 3 lety
как говаривают классики: - ничего не понял ,но оч интересно. Лайк и подписон от старичка - студента =)
@blackassasin5246 Před 3 lety
стоп а вы вообще программист
@user-bh5gt3ew9t Před 3 lety
@@blackassasin5246 юрист. учусь на прогера.
@blackassasin5246 Před 3 lety
@@user-bh5gt3ew9t тогда спрошу один грубый но закономерный ,вопрос почему ты это смотришь ты даже не программист я уже не говорю знаний пайтон и html
@user-bh5gt3ew9t Před 3 lety
@@blackassasin5246 я учусь на прогера, в контексте видосы вылезают вот и смотрю. =)
@user-bh5gt3ew9t Před 3 lety
@@blackassasin5246 в знак поддержки автора, подписался на канал. и в метро смотрю мало-помалу )
@mark.visotskiy Před 2 lety ⁺¹
Добрый день, подскажите где искать headers на маке?
@short_aliexpress Před rokem
благодарю.
@ShooterStar Před 2 lety
Блин, круто! ПОлучается это все можно делать и с сайтами типа sofascore и подобным им? У софы есть api, но там сложно найти инфу которая нужна
@exeshka Před rokem
Здравствуйте,
А как можно получать данные с сайта которые постоянно обновляется?, если сделать запрос то выдается данные на момент запуска кода а мне нужно чтобы всегда данные были свежие
@user-kt7iw7mj1r Před 2 lety ⁺³
1. Параметр executable_path больше не используется в текущей версии selenium`a, теперь вместо него нужно передавать экземпляр класса Service:
Python:
импортируем:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
после try ваш код меняется на :
try:
s=Service('C:/Users/User/Desktop/Python/обучение 2/geckodriver.exe') (указываем свою директорию)
driver = webdriver.Firefox(service=s)
driver.get(url=url)
time.sleep(5)
или можно просто добавить chromedriver.exe в PATH и использовать без параметров driver = webdriver.Chrome().
2. Еще момент: вылезает "'charmap' codec can't encode character '\u20bd' in position 97452: character maps to "
меняю кодировку на "utf-8"
with open("index_selenium.txt", "w", encoding="utf-8") as file:
и потом записаный код в этой кодировке уже не прочитать нормально
короче тут я застрял, кто шарит помогите
@user-kt7iw7mj1r Před 2 lety
если что-то не так исправьте меня пожалуйста
@user-al393 Před 2 lety
открывай тоже в "utf-8" )
@ffffffffffffvmyt7237 Před rokem
нашел ответ?)
@SAVSAV1212 Před 6 měsíci
вместо encoding="utf-8" записать ensure_ascii=False
@user-lc9bn4no7i Před 2 lety ⁺¹
какой же ты крутой мужик, дай бог тебе никогда не болеть и жить счастливо!!!
ЕСТЬ ВОПРОСЫ
не могу разобраться с заголовками:
в первом видео плейлиста ты забирал заголовки accept и user-agent
в последующих видео тебе хватало только user-agent
сейчас ты забрал: accept, accept-encoding, accept-language, cache-control, connection и user-agent
как понять какие заголовки мне нужны в переменной headers и по какому принципу их выбирать?
А еще есть ли разница в каком гет запросе брать эти заголовки? Часто замечаю что во вкладке network прилетают несколько разных запросов и тот же user_agent лежит почти в каждом, но не в каждом запросе лежат одни и те-же заголовки. И если есть разница, то как определить нужный нам запрос?
@PythonToday Před 2 lety
Благодарю за поддержку! Работа с каждым сайтом индивидуальна. Большинство тебе отдадут контент вообще без указания каких либо заголовком. Где-то нужен user-agent, где-то нужно указывать accept, т.к элементарно надо получить именно json ответ. По поводу "как определить нужный нам запрос", не понятно. Ты ведь к конкретной странице его совершаешь, так и смотри в network.
@aptz7188 Před 3 lety
Бро, запили видос про авторегер аккаунтов на каком либо сайте, где брать интернет запросы и как их повторить на питоне.
@user-pr7pt1tr3d Před 8 měsíci
Спасибо огромное за уроки, очень понятно все...Пробую парсить сайт, попробовал все возможные способы, но с помощью request не достается весь код со страницы, а на странице нет api ссылки, вот не знаю как подобраться, все видео посмотрел...
@orthodox-chanel Před rokem ⁺²
в предыдущих уроках прриходилось гуглить и искать решения, потому что код сайта поменялся с момента как Вы отсняли ролик. Но в этом уроке наоборт сайт изменился в лучшую сторону и его можно спарсить через requests. Но я все равно повторяю пример с селениумом чтобы научиться.
Кстати информация для таких же студентов как я: если сохранить страницу а потом удалить из нее все JavaScript элементы то можно без проблем просматривать ее содержимое и полезный контент. Я так понимаю через яваскрипт тут отключено отображение полезного контента. А если просто парсить без просмотра через BeautifulSoup то проблем не будет ведь JavaScript работает только в браузере.
@user-bv7xn8xq7b Před 11 měsíci
Подскажи пожалуйста, а как удалить джава скрипт из кода
@Hi-gjgruncdun Před 5 měsíci
Качественные уроки, спасибо, а как ты выделяешь и комментируешь сразу несколько строк? Я когда пытаюсь так сделать, у меня просто одна решетка ставится, а код удаляется
@user-wk9dl9lu2t Před 3 měsíci
в Pycharm делается как Ctrl + / (перед эти выделив, что нужно закоментировать) и это надо делать в En раскладке
@said6434 Před 2 lety
а если у меня драйвер в формате exe я просто установил его? мне тогда просто указать путь до exe?
@sinsgames9758 Před 3 lety ⁺²
Сделай тему про обход защиты cloudfire
@Fire_li_on_boost Před 3 lety ⁺³
Давай след видос про авторизацию через гугл
@nyakakun3398 Před 3 lety
Спасибо! ;з
@PythonToday Před 3 lety
Благодарю!
@nikitaku43r99 Před rokem
3:27
подскажите почему не создает Html файл когда запускаю код, все сделал так же
система Win 10
@software9256 Před 3 lety
есть сайт с которого надо инфу спарсить
Но там стоит клауд а селением я так понимаю не проходит его?
@xed-legions2248 Před 2 lety ⁺¹
Можно видео где будешь решать капчу с помощью запросов, ну и какого то сервиса пример рукапча
@maovao Před 3 lety
Спасибо за уроки! Сейчас столкнулся с тем, что код сайта не совпадает с тем, что я получаю через requests. Полез смотреть этот урок. Скажите, пожалуйста, если при исследовании запросов я нашел запрос, который при открывании в новой вкладке дает следующий текст: "Error 1020 Access denied. What happened?
This website is using a security service to protect itself from online attacks."
Такую защиту простому новичку уже не обойти? Это сайт маркета с игровыми предметами. Хотел парсить нужные мне позиции и отслеживать цену.
@ibragiminc8741 Před 2 lety
используй proxy должно сработать
@user-bh5gt3ew9t Před 3 lety
смотрю на все это, мне это предстоит изучать. Страшно и интересно одновременно )
@PythonToday Před 3 lety
Век живи - век учись. В программировании нужно учиться каждый день. Не важно деть, месяц или 20 лет пишешь код. Но возможности открываются безграничные.
@user-bh5gt3ew9t Před 3 lety
@@PythonToday спасибо за добрые слова =)
@MajinTorankusu Před 2 lety
Не создаётся html файл в корне PyCharm, код выполняется а файла нет, подскажите куда копать
@cherevko0705 Před 3 lety
Большая просьба показать как можно спарсить конкретные данные уже из самого расширенного блока страницы к примеру продажи квартир, дата создания и редактирования и № телефона находятся в конкретной отдельной ссылке одного блока куда надо отдельно заходить. Как можно объединить поверхностный парсинг с инфой которую нужно достать через проход в углубленные ссылки данных !!!!
@mikalayvayavoda1249 Před 2 lety
Подскажите, а не сталкивались с выгрузкой, где есть псевдоклассы ::before например...никак не могу их обойти
@PythonToday Před 2 lety
Да постоянно, а в чем проблема. Можно ведь шагать по элементам как хочешь. find_next, next_element, работа с parents и т.д, если мы говорим о BS
@peremysh Před 2 lety
котэ 1yoбывает! Спасибо за видео!
@PythonToday Před 2 lety
Спасибо за фидбэк)
@romul23 Před 3 lety ⁺¹
Как отформатировали html на 3:30 что за хот-кей, подскажите пожалуйста
@PythonToday Před 3 lety
ctrl + alt + L, касается не только html
@Katar1x Před 2 lety
Что делать, если не дает пройти аутентификацию через гугл, другую нет возможности использовать..
@daddy_eddy Před 2 lety ⁺²
Спасибо большое!
Хороший способ. Жаль, что до конца не показана вся работа в одном видео. Сайт-то не из простых. Ведь Вы спарсили только первые 100 ссылок. А хотелось бы посмотреть как спарсить все, а потом получить инфу по каждому отелю.
@Xelt-tc1zn Před 2 lety
Чтобы парсить более 100 ссылок при помощи Selenium можно добавить блок While и прокликать:
driver.get(url=url)
time.sleep(5)
while True:
try:
driver.find_element_by_id('rsrvme_hc_show_more_dv_a').click()
time.sleep(5)
except Exception:
break
@Igor245390 Před rokem
Привет, подскажите, как можно организовать поиск если нет классов, только теги, а нужная информация лежит в тегах , в них есть style=....
@user-er7dv7ej3i Před 10 měsíci
Через .find_next используя циклы
@krislars7145 Před rokem
Видео класс!
НО Вылезла ошибка:
"AttributeError: 'options' object has no attribute 'set_preference'"
Помогите решить
@orthodox-chanel Před rokem ⁺¹
было бы хорошо показывать паралельно с уроками по парсингу другие полезные фишки питона. Например такие как односторчные генераторы или фильтрация по лямбда функции. Захотелось детально распарсить скачанные карточки(вытащить ссылки на фото, описание и тд) пришла идея сохранить такие данные как ссылки на фото в список а потом записать в json но получилось слишком нагроможденно, а потом вспомнились генераторы списков и функция фильтр
@orthodox-chanel Před rokem ⁺¹
galery = list(filter(lambda x: len(x) > 50, (photo.get('src') for photo in soup.findAll('img', class_='img'))))
это сбор всех ссылок на фото из карточки отеля, фильтрация по длине меньше 50 потому что там много фото с логотипами и прочим мусором имеют длину до 48 символов.
@orthodox-chanel Před rokem ⁺¹
desccription_list = [desc.text.replace('

','').replace('
','') for desc in soup.find(class_='about-hotel__item').findAll('li', class_='about-hotel-list__item')]
@darksniper407 Před 3 lety
Доброго времени суток
Сам подобную решал за счёт одного селениума, именно при помощи get_attribute.
Насколько бы тут работало, или лучше, но Вы тут тоже юзали селениум.
@PythonToday Před 3 lety
Привет, не понял твоего вопроса
@darksniper407 Před 3 lety
@@PythonToday Это утверждение)
По факту requests и bs4 для скрепинга не нужны, только селениум.
Другое дело тестить API. Тут без requests никак.
@DIM171000 Před 2 měsíci
selenium сохраняет пустой файл, в чем может быть причина ?
@almartyn3734 Před 2 lety
В благодарность, напишу бота, который накрутит тебе лайки. Огромный респект.
@PythonToday Před 2 lety ⁺¹
Спасибо конечно за респект. Для чего? Думай что говоришь, за такую благодарность, получишь бан
@ulfatkhalikov Před 2 lety
Класс!)
Подскажи пожалуйста, как ставить массово комментарии через решетку?
@PythonToday Před 2 lety
Благодарю за фидбэк! Если правильно тебя понял, то выделяешь текст и ctrl + /
@ulfatkhalikov Před 2 lety
@@PythonToday Благодарю)
@ruslanakhmetzyanov5503 Před 8 měsíci
Подскажите, как можно запарсить яндекс дзен? вообще какую-то фигню выводит
@joness_7731 Před 9 měsíci
А где можно взять заказы?
@CumLee Před 3 lety ⁺¹
Какой редактор кода используете? Как называется?
@PythonToday Před 3 lety ⁺¹
PyCharm
@CumLee Před 3 lety
@@PythonToday Благодарочка)
@syracuse4612 Před 2 lety ⁺¹
у меня в файле html символы не понятные,как поменять метод шифрования?
@Xelt-tc1zn Před 2 lety ⁺¹
В headers, оставь только 'user-agent', остальные параметры удали.
@user-fl2pc6ld4t Před rokem
Добрый день, не получается скачать библиотеку с терминала подскажите что делать, пишет что 'pip' not recognized
@PythonToday Před rokem
Приветствую, думаю для начала нужно поставить сам pip если его нет
@user-co6bu9vy4w Před 2 lety ⁺¹
Ребята, помогите, пожалуйста, на 3:26 как из строки код привести в нормальный вид?
@RavCHICK1 Před rokem
такой же вопрос
@user-ip6qt4ez9f Před 8 měsíci
В headers в этот раз указано много вводных в отличие от прошлых примеров, с чем это связано , кто знает киньте ссылку на правила пл которым эти заглдовки нужно прописывать , я например вообще их не указал и данные с сайта вме равно получил без всяких банов.
@leoworker1752 Před 2 lety
То есть Selenium подгрузил весь HTML, в отличии от bs4?
@fidericofer1432 Před 3 lety
Есть библиотека типо Реквест только с поддержкой JS и она может как раз собирать Такие вот ссылки, я видел как ее использовали но у самого руки не дошли, хотелось бы увидеть примеры ее использования в виде гайда.
@PythonToday Před 3 lety
И что за библиотека "с поддержкой JS"? Название напиши.
@fidericofer1432 Před 3 lety
@@PythonToday в том то и суть что я не помню названия, потому что сам не пользовался ей.
@laodj Před rokem
Возможно у вас будет ошибка. Замените в try driver на driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)
@zakirovio Před rokem ⁺¹
Только прошел этот урок. Теперь оказывается не надо скачивать драйвер и ставить его в директорию потом в параметрах указывать путь. Сейчас скачивается библиотека webdriver-manager и все импортируется оттуда в проект. Объект driver = webdriver.Firefox(service=Service(GeckoDriverManager().install()))
@zakirovio Před rokem
Чтобы не передавать settings для маскировки браузера, существует модуль undetected_chromedriver
@user-np8ol2vm2b Před 2 lety ⁺¹
Всем Привет, у меня проблема в следующем : когда открывая файл index.html , вместо кода кваказябры какие-то) encoding="utf-8" не помогает( . Подскажите пожалуйста, автору спасибо огромное за его труд!
@PythonToday Před 2 lety
Спасибо за фидбэк! Думаю потому, что используешь Windows. Добавляй параметр encoding при работе с файлами, пробуй разные кодировки. Just google или почитай комментарии к видео
@PythonToday Před 2 lety
К первому по плейлисту в парсинге
@user-np8ol2vm2b Před 2 lety
@@PythonToday Спасибо, уже читал , но все равно не работает) Буду разбираться, или же психану и поставлю линукс))
@Eldos.zhanat Před rokem
Такая же проблема! Есть решение?
@Eldos.zhanat Před rokem
@@user-np8ol2vm2b не могу понять какую кодировку надо
@user-cy5vo4ck6f Před 3 lety ⁺¹
Сделайте так чтоб данные от парсинга шли в телеграм бота
@serobrine Před 9 měsíci
Зачем сохранять страницу в файл и только потом ее парсить bs4, если можно парсить ее сразу средствами selenium без использования лишних библиотек и перезаписей файла?
@user-mw2co3wb9k Před 2 lety
У меня у одного отели не грузит?
@intellegetup6941 Před rokem
11:47
@denruslife9845 Před 2 lety
Скажите а на windows это так же будет работать?
@Thallrasha Před rokem
С некоторыми корректировками да.
@denruslife9845 Před rokem
@@Thallrasha скажите пожалуйста с какими корректировками?
@Thallrasha Před rokem ⁺¹
@@denruslife9845 В новой версии селениума немного по другому в веб драйвером надо работать(в документации есть поправки) и при сохранении- загрузке html файла надо указывать кодировку utf-8
@user-tg1lw9ux5i Před 3 lety ⁺¹
Сделай что нибудь с ВКонтакте , какой нибудь скрипт на что нибудь
@PythonToday Před 3 lety
Есть же видео на канале. Правда до ума не довел пока

Další v pořadí

Automatické přehrávání

Обучение парсингу на Python #7 | Парсинг сайтов на фрилансе | Requests, Beautifulsoup