DATALEARN | DE - 101 | МОДУЛЬ 2-4: Модели Данных
Vložit
- čas přidán 8. 06. 2020
- Все что вы хотели знать про модели данных.
📌 Что такое модель данных
📌 Типы моделей данных
📌 Что такое витрина данных
📌 Что такое витрина данных
📌 DW vs OLTP
📌 Последовательность дизайна DW
📌 Когда использовать модели данных
Во 2-ом модуле нашего курса вы узнаете про Базы Данных и их применении для аналитики. Так же мы познакомимся с языком SQL и потренируемся использовать БД и SQL.
Дмитрий обязательно расскажет про реальный кейсы использования БД и SQL из своего опыта.
🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части
📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале datalearn.ru/
👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания, отдавать их на проверку и получить сертификат прохождения курса.
Telegram канал: t.me/rockyourdata
Спонсировать: / dmitryanoshin или paypal.me/dmitryanoshin
Огромное спасибо за ваш труд, очень немного качественных материалов по DE на русском
Мне как начинающему DE очень полезен каждый урок в каждом модуле. Спасибо за такую возможность, с удовольствием расширяю свои познания. Кстати DBDesigher - то же удобный инструмент для создания модели
Пару лет назад с данными для лаб к этому модулю емнип с ЕТЛ тренировался, а сейчас пригождается при изучении dbt - сразу код с гитхаба можно в модели оборачивать. Спасибо в очередной раз Дмитрий.
Спасибо!!!
Супер полезный материал. Благодарю за проделанный труд, он офигенный!
Супер формат! Спасибо!
лайк и коммент для поддержки канала
Когда учился в универе, мы и преподы называли ERwin(Эрвин) ирвином (с ударением на второй слог)
очень круто
Дмитрий, я так пару лет назад на собеседовании в один немецкий стартап сказал, что не загоняйтесь по моделированию и денормализации, а переезжайте с MS SQL на поколоночную mpp типа Vertica, потому что для аналитики быстрее, а экономить место на дисках в современных реалиях дороже за счет зарплаты инженеров. Диски дешевле обходятся. Мне отказали с формулировкой, что мои технические скилы вызывают у них вопросы ))) За ролик спасибо!
В Амазоне так же - по теории гоняют, а на практике все наоборот. Сидят матерые инженеры, и надо что-то спросить, поэтому все спрашивают про модели данных (вроде как по теме), а вот нужны они или нет, совсем другой вопрос.
@@datalearn4398 то есть вот эти вот все шутки про hr-ов, которые по ключевым словам скринят и книги cracking interview - не просто так)) прошел собеседования а дальше по ходу разберешься?)
@@nikitabbrv5947 прошел собеседование на алгоритмы, а дальше формочки двигаешь - классика
мда-а-а
лайки заслуживает))
Дмитрий, было бы очень круто, если бы Вы выкладывали слайды под видео. Некоторые картинки трудновато прочитать в видео. Спасибо за уроки!
Потом и слайды добавим.
На 1080p все выглядело бы намного лучше(, а то ничего не видно.
P.S. Спасибо за труд)
Извините, поправлю: обеспечение уникальности записей в таблицах - это 1 нормальная форма) Отрезок про последовательность дизайна DW очень понравился, материал подан супердоступным языком без лишних усложнений
Уникальность это 0 НФ. А именно обеспечение реляционной модели.
есть технические (машинные) уники, а есть в людях. смотря какая система (соот-но метод) подсчета используется
Erwin Data MAD
Дмитрий, вы сказали, что разнесение данных на разные таблицы (нормализация) позволяет быстрее выполнять запросы, но ведь дело обстоит совсем наоборот. Чем больше таблиц, тем более джойнов приходится делать, что затрачивает много ресурсов.
Цитата из википедии: Денормализация (англ. denormalization) - намеренное приведение структуры базы данных в состояние, не соответствующее критериям нормализации, обычно проводимое с целью ускорения операций чтения из базы за счет добавления избыточных данных.
Как раз таки избыточность данных (одна большая табличка) позволяет ускорить выполнение запросов, а не разнесение на разные таблицы.
Или я не так вас понял? Поясните, пожалуйста.
Спасибо за комментарий. Это действительно, больше join, сложней запрос. Я не правильно выразил свои мысли. Для меня часто процесс моделирования данных в хранилище не самое главное, исторически заморачивались с моделями данных для оптимизации скорости, это быстрей чем все данные в одной таблице.
@@datalearn4398 "исторически заморачивались с моделями данных для оптимизации скорости, это быстрей чем все данные в одной таблице"
Мне всегда казалось, что с моделями данных заморачивались для того, чтобы исключить избыточное дублирование данных, которое является причиной возникающих аномалий. А запихать все в одну таблицу и сделать простой селект в BI - это как раз быстро и без заморочек)
Возможно я не прав, но хочу все же разобраться.
Вот такой вот кусок из статьи нашел по этой теме:
"За денормализацию нужно платить. В денормализованной базе данных повышается избыточность данных, что может повысить производительность, но потребует больше усилий для контроля за связанными данными. Усложнится процесс создания приложений, поскольку данные будут повторяться и их труднее будет отслеживать. Кроме того, осуществление ссылочной целостности оказывается не простым делом - связанные данные оказываются разделенными по разным таблицам.
К преимуществам относится более высокая производительность при выполнении запроса и возможность получить при этом более быстрый ответ. Кроме того, можно получить и другие преимущества, в том числе увеличение пропускной способности, уровня удовлетворенности клиентов и производительности, а также более эффективное использование инструментария внешних разработчиков".
Если интересно, ссылка на хабр: habr.com/ru/post/64524/
Я бы сам хотел, но для этого надо реальный проект с практикой. А получается все надо быстро делать.
В любом случае спасибо за контент, пока что это лучшее из того что я видел по этой теме
на 7:50 вроде как оговорка: "В чем разница между 3NF и Inmon?"... Это же одно и тоже?
кто знает разницу между big data и data lake? гугл ценных сведений не дал
Big data это класс решений, обычно связанный с Hadoop, spark. То есть не хранилище данных. Решения для вычислений и процессинга данных. А Data Lake это способ хранения и организации данных в файлах и удобный доступ к данным, часто черезь SQL. я писал подробно тут m.habr.com/ru/post/485180/
Большое спасибо за это видео! А почему вы говорите что обычно не используете foreign key?
Я имел ввиду, что не парюсь про PK/FK в аналитических БД (как в модуле 6 будут), и так сойдет)
Претензія до комуністичного Ютубу через скриття дизлайків. Матеріал неякісний, але не можливо побачити відношення лайків і дизлайків
Он в Амазоне работает дата инженером, просто человек перед камерами переживает
Ведучий тупо гуманітарій без жодних технічних навиків
Сгенерировал код sql но пишет что там ошибка
Кто может помочь ?
CREATE TABLE "sales_fact"
(
"row_id" NOT NULL,
"order_id" NOT NULL,
"sales_amount" NOT NULL,
"profit" NOT NULL,
"date" date NOT NULL,
CONSTRAINT "PK_sales_fact" PRIMARY KEY ( "row_id" ),
CONSTRAINT "FK_1" FOREIGN KEY ( "date" ) REFERENCES Calendar ( "date" )
);
CREATE INDEX "FK_2" ON "sales_fact
(
"date"
);
CREATE INDEX "FK_2" ON "sales_fact - может тут скобка пропущена?
@@Cimarosti187
sales _fact полностью в кавычки,. Одна отсутствует