DATALEARN | DE - 101 | МОДУЛЬ 7-2 ЧТО ТАКОЕ APACHE SPARK

Sdílet
Vložit
  • čas přidán 27. 08. 2024
  • Apache Spark является самый популярным инструментом среди инженеров данных, аналитиков и инженеров машинного обучения. Его главная задача это обработка данных. С помощью Spark можно подключаться к любому источнику данных, читать большие данные и обрабатывать их в оперативной памяти с использованием распределенного вычисления (distributed computing).
    В этом видео:
    📌 Узнаем история Apache Spark
    📌 Посмотрим примеры архитектур с использованием Spark
    📌 Разберемся когда его можно использовать
    📌 Узнаем про основные компоненты
    📌 Узнаем, обозначает термин Unified Analytics
    В 7м модуле мы познакомимся с open source решением для аналитики и инжиниринга данных - Apache Spark и его коммерческой версией Databricks. Вы узнаете примеры использования в индустрии и популярные use cases. Я расскажу о своем опыте с Apache Spark в Амазоне и Майкрософт и научу вас работать с данными с помощью PySpark и Spark SQL, покажу вам лучшие книги и материалы по Spark.
    В этом видео еще узнаете про Whistler, BC;)
    🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!
    📕 Записывайтесь и проходите курс Инженера Данных.
    ⚠️ КУРС БЕСПЛАТНЫЙ!
    🔗 Записаться вы можете на нашем портале datalearn.ru/
    👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания и получить сертификат прохождения курса.
    🔥Самые актуальные новости про аналитику в Telegram канале: t.me/rockyourdata

Komentáře • 10

  • @vladimirnovickiy2927
    @vladimirnovickiy2927 Před 8 měsíci +3

    спасибо за труд, по data очень мало качественного контента. На одном из проектов работал с Databricks и юзал pyspark и могу сказать, что это очень мощный, удобный тул для data processing. Однако столкнулся с тем, что на собесах часто спрашивают подкапотку спарка и тут уже имеются пробелы, это видео помгло систематизировать знания и заполнить гэпы. Касательно RDD, dataframe and dataset в документации очень поверхам всё это описано и нет четкого понимая их применения, на практике же используются dataframe для всех манипуляций. лайк и подписка!

  • @wardog5260
    @wardog5260 Před 2 lety +6

    Добрый день. Благодарю за ваш труд. Несмотря на изобилие информации в интернете, очень редко найдёшь действительно полезную.

  • @dmitryanoshin8004
    @dmitryanoshin8004 Před rokem +1

    То что доктор прописал😊

  • @teo5998
    @teo5998 Před 2 lety +3

    Отлично! Всегда рад новым выпускам!
    Спасибо, что не забываете о нас!

  • @alexanderseleznev7150
    @alexanderseleznev7150 Před 2 lety +2

    Спасибо большое , ждали !!!

  • @perestal621
    @perestal621 Před rokem

    Clear explanation with hands on experience!
    Thank you, teacher!🎉

  • @andreymatveev7556
    @andreymatveev7556 Před 2 lety +1

    Спасибо за выпуск

  • @user-zd6sf8zo5y
    @user-zd6sf8zo5y Před rokem

    RDD - некий аналог распределенной оперативной памяти.

  • @pythondeveloper390
    @pythondeveloper390 Před 2 lety

    Дождался!

  • @Luke-sl8ry
    @Luke-sl8ry Před 2 lety

    Pᵣₒmₒˢᵐ 💘