DATALEARN | DE - 101 | МОДУЛЬ 2-4: Модели Данных

Sdílet
Vložit
  • čas přidán 8. 06. 2020
  • Все что вы хотели знать про модели данных.
    📌 Что такое модель данных
    📌 Типы моделей данных
    📌 Что такое витрина данных
    📌 Что такое витрина данных
    📌 DW vs OLTP
    📌 Последовательность дизайна DW
    📌 Когда использовать модели данных
    Во 2-ом модуле нашего курса вы узнаете про Базы Данных и их применении для аналитики. Так же мы познакомимся с языком SQL и потренируемся использовать БД и SQL.
    Дмитрий обязательно расскажет про реальный кейсы использования БД и SQL из своего опыта.
    🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части
    📕 Записывайтесь и проходите курс Инженера Данных.
    ⚠️ КУРС БЕСПЛАТНЫЙ!
    🔗 Записаться вы можете на нашем портале datalearn.ru/
    👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания, отдавать их на проверку и получить сертификат прохождения курса.
    Telegram канал: t.me/rockyourdata
    Спонсировать: / dmitryanoshin или paypal.me/dmitryanoshin

Komentáře • 41

  • @mikhailkuznetsov4643
    @mikhailkuznetsov4643 Před 4 lety +23

    Огромное спасибо за ваш труд, очень немного качественных материалов по DE на русском

  • @antonkuzmtskiy4085
    @antonkuzmtskiy4085 Před rokem +1

    Мне как начинающему DE очень полезен каждый урок в каждом модуле. Спасибо за такую возможность, с удовольствием расширяю свои познания. Кстати DBDesigher - то же удобный инструмент для создания модели

  • @smbsmn324
    @smbsmn324 Před 6 měsíci

    Пару лет назад с данными для лаб к этому модулю емнип с ЕТЛ тренировался, а сейчас пригождается при изучении dbt - сразу код с гитхаба можно в модели оборачивать. Спасибо в очередной раз Дмитрий.

  • @user-jy9eo8en8x
    @user-jy9eo8en8x Před 2 měsíci

    Спасибо!!!

  • @ManticoreRoko
    @ManticoreRoko Před rokem

    Супер полезный материал. Благодарю за проделанный труд, он офигенный!

  • @dmitriydmitriy4538
    @dmitriydmitriy4538 Před rokem

    Супер формат! Спасибо!

  • @stormd2902
    @stormd2902 Před rokem

    лайк и коммент для поддержки канала

  • @anton108
    @anton108 Před 2 lety +1

    Когда учился в универе, мы и преподы называли ERwin(Эрвин) ирвином (с ударением на второй слог)

  • @user-xl1zq2ic5f
    @user-xl1zq2ic5f Před 4 lety +2

    очень круто

  • @lagutinskiy
    @lagutinskiy Před 4 lety +5

    Дмитрий, я так пару лет назад на собеседовании в один немецкий стартап сказал, что не загоняйтесь по моделированию и денормализации, а переезжайте с MS SQL на поколоночную mpp типа Vertica, потому что для аналитики быстрее, а экономить место на дисках в современных реалиях дороже за счет зарплаты инженеров. Диски дешевле обходятся. Мне отказали с формулировкой, что мои технические скилы вызывают у них вопросы ))) За ролик спасибо!

    • @datalearn4398
      @datalearn4398  Před 4 lety +2

      В Амазоне так же - по теории гоняют, а на практике все наоборот. Сидят матерые инженеры, и надо что-то спросить, поэтому все спрашивают про модели данных (вроде как по теме), а вот нужны они или нет, совсем другой вопрос.

    • @nikitabbrv5947
      @nikitabbrv5947 Před 4 lety +1

      @@datalearn4398 то есть вот эти вот все шутки про hr-ов, которые по ключевым словам скринят и книги cracking interview - не просто так)) прошел собеседования а дальше по ходу разберешься?)

    • @anton108
      @anton108 Před 2 lety +3

      ​@@nikitabbrv5947 прошел собеседование на алгоритмы, а дальше формочки двигаешь - классика

    • @ivani3237
      @ivani3237 Před rokem

      мда-а-а

  • @user-li2ke3zp9x
    @user-li2ke3zp9x Před 2 lety

    лайки заслуживает))

  • @user-yq1lz7fi7o
    @user-yq1lz7fi7o Před 3 lety +2

    Дмитрий, было бы очень круто, если бы Вы выкладывали слайды под видео. Некоторые картинки трудновато прочитать в видео. Спасибо за уроки!

  • @alisherrakhimov1997
    @alisherrakhimov1997 Před 2 lety +1

    На 1080p все выглядело бы намного лучше(, а то ничего не видно.
    P.S. Спасибо за труд)

  • @moveablefeast1990
    @moveablefeast1990 Před 2 lety

    Извините, поправлю: обеспечение уникальности записей в таблицах - это 1 нормальная форма) Отрезок про последовательность дизайна DW очень понравился, материал подан супердоступным языком без лишних усложнений

    • @nikitahffthvdestggfdry
      @nikitahffthvdestggfdry Před 6 měsíci

      Уникальность это 0 НФ. А именно обеспечение реляционной модели.

  • @alexandram1460
    @alexandram1460 Před 4 lety +1

    есть технические (машинные) уники, а есть в людях. смотря какая система (соот-но метод) подсчета используется

  • @g3orlov
    @g3orlov Před 4 lety +3

    Erwin Data MAD

  • @nikitasimonenko8949
    @nikitasimonenko8949 Před 4 lety +2

    Дмитрий, вы сказали, что разнесение данных на разные таблицы (нормализация) позволяет быстрее выполнять запросы, но ведь дело обстоит совсем наоборот. Чем больше таблиц, тем более джойнов приходится делать, что затрачивает много ресурсов.
    Цитата из википедии: Денормализация (англ. denormalization) - намеренное приведение структуры базы данных в состояние, не соответствующее критериям нормализации, обычно проводимое с целью ускорения операций чтения из базы за счет добавления избыточных данных.
    Как раз таки избыточность данных (одна большая табличка) позволяет ускорить выполнение запросов, а не разнесение на разные таблицы.
    Или я не так вас понял? Поясните, пожалуйста.

    • @datalearn4398
      @datalearn4398  Před 4 lety

      Спасибо за комментарий. Это действительно, больше join, сложней запрос. Я не правильно выразил свои мысли. Для меня часто процесс моделирования данных в хранилище не самое главное, исторически заморачивались с моделями данных для оптимизации скорости, это быстрей чем все данные в одной таблице.

    • @nikitasimonenko8949
      @nikitasimonenko8949 Před 4 lety

      @@datalearn4398 "исторически заморачивались с моделями данных для оптимизации скорости, это быстрей чем все данные в одной таблице"
      Мне всегда казалось, что с моделями данных заморачивались для того, чтобы исключить избыточное дублирование данных, которое является причиной возникающих аномалий. А запихать все в одну таблицу и сделать простой селект в BI - это как раз быстро и без заморочек)
      Возможно я не прав, но хочу все же разобраться.

    • @nikitasimonenko8949
      @nikitasimonenko8949 Před 4 lety +1

      Вот такой вот кусок из статьи нашел по этой теме:
      "За денормализацию нужно платить. В денормализованной базе данных повышается избыточность данных, что может повысить производительность, но потребует больше усилий для контроля за связанными данными. Усложнится процесс создания приложений, поскольку данные будут повторяться и их труднее будет отслеживать. Кроме того, осуществление ссылочной целостности оказывается не простым делом - связанные данные оказываются разделенными по разным таблицам.
      К преимуществам относится более высокая производительность при выполнении запроса и возможность получить при этом более быстрый ответ. Кроме того, можно получить и другие преимущества, в том числе увеличение пропускной способности, уровня удовлетворенности клиентов и производительности, а также более эффективное использование инструментария внешних разработчиков".
      Если интересно, ссылка на хабр: habr.com/ru/post/64524/

    • @datalearn4398
      @datalearn4398  Před 4 lety

      Я бы сам хотел, но для этого надо реальный проект с практикой. А получается все надо быстро делать.

    • @nikitasimonenko8949
      @nikitasimonenko8949 Před 4 lety +1

      В любом случае спасибо за контент, пока что это лучшее из того что я видел по этой теме

  • @telephoneaccount7882
    @telephoneaccount7882 Před rokem

    на 7:50 вроде как оговорка: "В чем разница между 3NF и Inmon?"... Это же одно и тоже?

  • @alexandram1460
    @alexandram1460 Před 4 lety +1

    кто знает разницу между big data и data lake? гугл ценных сведений не дал

    • @datalearn4398
      @datalearn4398  Před 4 lety +2

      Big data это класс решений, обычно связанный с Hadoop, spark. То есть не хранилище данных. Решения для вычислений и процессинга данных. А Data Lake это способ хранения и организации данных в файлах и удобный доступ к данным, часто черезь SQL. я писал подробно тут m.habr.com/ru/post/485180/

  • @aleevsergey
    @aleevsergey Před 2 lety

    Большое спасибо за это видео! А почему вы говорите что обычно не используете foreign key?

    • @datalearn4398
      @datalearn4398  Před 2 lety

      Я имел ввиду, что не парюсь про PK/FK в аналитических БД (как в модуле 6 будут), и так сойдет)

  • @vugpgu
    @vugpgu Před rokem

    Претензія до комуністичного Ютубу через скриття дизлайків. Матеріал неякісний, але не можливо побачити відношення лайків і дизлайків

    • @Fox1ne1
      @Fox1ne1 Před 5 měsíci

      Он в Амазоне работает дата инженером, просто человек перед камерами переживает

  • @vugpgu
    @vugpgu Před rokem

    Ведучий тупо гуманітарій без жодних технічних навиків

  • @ValkateResearches
    @ValkateResearches Před rokem

    Сгенерировал код sql но пишет что там ошибка
    Кто может помочь ?
    CREATE TABLE "sales_fact"
    (
    "row_id" NOT NULL,
    "order_id" NOT NULL,
    "sales_amount" NOT NULL,
    "profit" NOT NULL,
    "date" date NOT NULL,
    CONSTRAINT "PK_sales_fact" PRIMARY KEY ( "row_id" ),
    CONSTRAINT "FK_1" FOREIGN KEY ( "date" ) REFERENCES Calendar ( "date" )
    );
    CREATE INDEX "FK_2" ON "sales_fact
    (
    "date"
    );

    • @Cimarosti187
      @Cimarosti187 Před rokem

      CREATE INDEX "FK_2" ON "sales_fact - может тут скобка пропущена?

    • @ruslandubchak6415
      @ruslandubchak6415 Před rokem

      @@Cimarosti187
      sales _fact полностью в кавычки,. Одна отсутствует