[Коллоквиум]: Математика больших данных: тензоры, нейросети, байесовский вывод - Ветров Д.П.

ФКН ВШЭ

zhlédnutí 41 435

Přidat do
- Můj playlist
- Přehrát později
Sdílet

Sdílet

Vložit

Velikost videa:

Zobrazit ovladače přehrávání

Automatické přehrávání

Přehrát

čas přidán 22. 01. 2015
Человечество вступило в эпоху больших данных - время, когда объем доступной для анализа информации нарастает на порядки быстрее чем вычислительные мощности. Традиционные математические методы и модели в такой ситуации становятся неприменимы. Необходимо создание "новой математики", адаптированной под новые соотношения между данными и вычислительными ресурсами. Как можно хранить и обрабатывать многомерные массивы в линейных по памяти структурах? Что дает обучение нейронных сетей из триллионов триллионов нейронов и как можно осуществить его без переобучения? Можно ли обрабатывать информацию "на лету", не сохраняя поступающие последовательно данные? Как оптимизировать функцию за время меньшее чем уходит на ее вычисление в одной точке? Что дает обучение по слаборазмеченным данным? И почему для решения всех перечисленных выше задач надо хорошо знать математику? Ответы на эти вопросы будут рассмотрены в докладе.

Komentáře • 17

@themachine9329 Před 8 lety ⁺³³
Жаль что торопили лектора, на такую интересную тему дали несчастный час, могли бы и побольше. Ветров отлично рассказывает.
@aurelia_lepida Před 6 lety ⁺¹
Шикарный лектор! Спасибо огромное))
@OlegBezverhii Před 8 lety ⁺¹
Мне понравилось, жалко не успели всё рассказать, но слушать было интересно. Нам бы такого преподавателя в университет)
@vitaliivostotskyi9855 Před 9 lety ⁺²
Я тоже на вводной лекции по системам и методам принятия решений рассказываю пример о кредитном эксперте. Но скрытые переменные это не из той оперы. прежде всего есть такое понятие как образ, или паттерн. и машинное обучение сводится к задаче распознавания образов, где первоначально идет обучение-то есть обобщение признаков путем их описания поверхностью в некотором пространстве, либо другим способом. далее идет классификация, когда для текущего состояния некоторого объекта , зафиксированного в определенный момент времени , нужно оценить принадлежность к тому или иному образу. образ по сути есть совокупность данных, описывающих типичное проявление некоторого устойчивого во времени поведения объекта. например, для банка, у объекта кредитора есть 2 устойчивых состояния -надежный кредитор и ненадежный(неспособный отдать средства). каждая точка на том графике не есть объект, а всего лишь проявление определенного абстрактного объекта в виде совокупности его характеристик, зафиксированных в момент времени, когда он пребывал в одном из таких устойчивых состояний.
относительно признаков.
с точки зрения оптимальности, мы можем построить такие решающие правила, которые позволят нам четко разделить данные для разных паттернов. тогда наш классификатор будет безошибочным(по обучающей выборке). так вот, правильно подобранные признаки влияют на эту самую оптимальность. если рассматривать такие признаки, которые, например , будут принимать разные значения, когда наш объект управления будет находится в разных состояниях. признаки принято делить на 3 типа.
1. информативные- удалив их из числа признаков(назовем его словарем признаков), мы ухудшим результаты обучения. то есть эти признаки несут ИНФОРМАЦИЮ о РАЗНООБРАЗИИ состояний объекта.
2. неинформативные или мешающие. если убрать из словаря признаков качество обучения улучшиться.
3. латентные признаки-это признаки , которые несут информацию о разнообразии проявления объектов, либо же простыми словами-имеют полезные ведомости о состояниях объекта, но эти ведомости нельзя оценить, пока в словаре присутствуют другие, как правило, неинформативные признаки. сокращая словарь признаков по определенному алгоритму, можно добиться, что в определенный момент времени значение критерия качества обучения может вырасти. и это несмотря на принцип аддитивности в теории информации(чем больше элементов имеет сообщение, тем более ценности оно может иметь.) но в то же время семантический подход к оценке количества информации говорит о том, что разные елементы сообщения могут иметь разный вес, то есть информативность.
@DaddyTorque Před 7 lety
Здравствуйте, не могли бы вы выложить слайды где-нибудь ещё (например, на Гугл-диске расшарить), потому что на slide share какие-то проблемы... не получается их там посмотреть.
@user-qKjP Před 7 lety ⁺²
В любом большом объеме данных есть закономерности, даже если они сгенерированы случайно. Это доказали Семереди и Рамсей. ;)
@wugu42 Před 6 lety ⁺¹
Безусловно, есть. Но на них абстракций не построишь же.
@user-mk3kk8dy4j Před 7 lety ⁺¹
Название ролика напугало страшно..:-\ Думал, мне 'ваааще не понять'
Оказалось - лекция 'для продвинутых домохозяек', количество 'многабукафф' в пределах нужного и не более.
Рекомендую всем, кто сам не в теме (как я), но хочет разобраться.
@ac12484 Před 9 lety ⁺¹
Первый слайд: уже путаница между hidden variable и target variable. Обучающая выборка, это где известны значения target variable. А в модели могут быть еще и hidden variables, которые не известны ни в одной выборке, и являются чисто частью модели, например топики в LDA...
@quickD11 Před 9 lety
avaku вопрос терминологии. А первый слайд на то и первый, чтобы эту самую терминологию установить. К тому же у вас не вызывает возмущение, что hidden переменные еще и latent могут называться. Вообще указанная терминология имеет непосредственное отношение к скрытым марковским цепям, где задача стоит ровно такая же, по наблюдаемым величинам (observable) построить распределение скрытых (hidden).
@gleleylo Před 8 lety ⁺¹
Интересно, но слайды с формулами я не смог понять.
@user-hu1xl3ez7o Před 3 lety
Приглашаем в группу по методам
машинного обучения и Data Science - без формул: vk.com/dm_azforus
@romulspb76 Před 4 lety
2020!!!
@robertkatz240 Před 7 lety ⁺²
Как же раздражают "умники", постоянно перебивающие лектора!
@ruslankrivoshein2893 Před 4 lety
Один из них Юрий Кашницкий
@dmitriykorotaev8649 Před 3 lety
Как бесят люди, которые прерывают расказчика, чтобы выебнуться своими знаниями - а вот тут вы ошиблись... а позвольте дополню... главное, что дополняют какие-то несущественные вещи.

Další v pořadí

Automatické přehrávání

[Коллоквиум]: Разложение в тензорный поезд в задачах машинного обучения