Эффективное использование Jupyter и PySpark на Hadoop для анализа больших данных| Технострим

Sdílet
Vložit
  • čas přidán 9. 08. 2019
  • Самые значимые и интересные доклады от наших партнеров - известных отраслевых конференций, теперь доступны на канале "Технострим". У нас вы найдете 5-10 лучших докладов с прошедших конференций для программистов и разработчиков.
    Доклады Moscow Python 2018.
    Эффективное использование Jupyter и PySpark на Hadoop для анализа больших данных
    Павел Тарасов (ЦИАН)
    Руководитель отдела машинного обучения ЦИАН, кандидат физ.-мат. наук, ассистент на кафедре дискретной математики ФИВТ МФТИ.
    Одно из самых важных в работе data scientist'а и аналитика - уметь быстро проверять гипотезы. Есть много информации, курсов, конкурсов, как построить хорошую модель. Но кому будет нужна ваша модель, если на ее построение уйдут месяцы? А если вы не сможете быстро из модели собрать прототип?
    Бывают простые гипотезы:
    * Есть ли нужные данные?
    * Как их загрузить из другого источника?
    * Достаточно ли их, и корректны ли они?
    * Можно ли на них обучить модель, каково ее качество?
    Бывают гипотезы сложнее:
    * Что, если нужно применить сложную самописную функцию к большому количеству объектов?
    А теперь еще добавим, что все задачи необходимо решать не просто на продакшн-кластере, но там, кроме вас, работают еще человек 10 (или 50...).
    Я расскажу, как действительно быстро проверять такие гипотезы на Jupyter и PySpark, какими дополнительными инструментами пользоваться и как не подраться с продом и коллегами за ресурсы.
    ___
    ТЕХНОСТРИМ - образовательный канал для IT специалистов.
    ___
    ПОДПИСЫВАЙСЯ, ЕСЛИ ТЕБЕ ИНТЕРЕСНО УЗНАТЬ:
    ✔ как наши преподаватели - топовые специалисты Mail.Ru Group руководят разработкой в таких проектах, как Почта, ВКонтакте, Облако, Maps.me, Одноклассники, и решают сложные задачи каждый день
    ✔ реальные примеры из практики с анализом их достоинств и недостатков
    ✔ современные технологии, которые применяются в проектах-лидера Рунета
    ✔ о митапах, мастер-классах, вебинарах и других мероприятиях, которые проводятся на базе вузов и Mail.Ru Group.
    Нажмите здесь для подписки ‣ czcams.com/users/TPMGTU?sub_con...
    Все наши лекции проходят в ведущих вузах страны: МГУ, МГТУ, МФТИ, МИФИ, СПбПУ.
    ___
    ТЫ СТУДЕНТ?
    Вступай в наши образовательные проекты и участвуй в чемпионатах. Лучшие студенты получают возможность стажировки в Mail.Ru Group. Отбор - каждые полгода!
    Технопарк при МГТУ им. Баумана ‣ park.mail.ru
    Техносфера при МГУ им. Ломоносова ‣ sphere.mail.ru
    Технотрек при МФТИ ‣ track.mail.ru
    Техноатом при МИФИ ‣ technoatom.mail.ru/
    Технополис при СПбПУ ‣ polis.mail.ru
    Чемпионаты для программистов ‣ cups.mail.ru/
    Mail.Ru Group для образования ‣ mrgforedu

Komentáře •