- 1 411
- 1 940 196
ML Trainings
Registrace 24. 04. 2016
Machine Learning Trainings is a meetup series about competitive Data Science. Authors of the best solutions of the ML contests are invited to talk about their solutions and share practices. We discuss competitions from Kaggle and other platforms, academic conferences.
ML Trainings are organized by DataSouls.com and supported by ODS.ai community (slack channel #mltrainings_live).
Web-site, competitions calendar: mltrainings.ru/
Facebook Group: groups/1413405125598651/
VK club127913837
ML Trainings are organized by DataSouls.com and supported by ODS.ai community (slack channel #mltrainings_live).
Web-site, competitions calendar: mltrainings.ru/
Facebook Group: groups/1413405125598651/
VK club127913837
Алёна Цанда | Разработка мультимодального датасета для задачи суммаризации научных статей
Спикер: Алёна Цанда, НГУ
Тема доклада: Разработка мультимодального датасета для задачи суммаризации научных статей на русском языке
Data Fest 2024: ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в треке секции NLP: ods.ai/tracks/df24-nlp
______
Наши соц.сети:
Telegram: t.me/datafest
Вконтакте: datafest
Канал с вакансиями в telegram: t.me/odsjobs
Канал с апдейтами по курсам: t.me/odscourses
Как попасть в чат сообщества ODS Mattermost: ods.ai/tracks/mattermost
Тема доклада: Разработка мультимодального датасета для задачи суммаризации научных статей на русском языке
Data Fest 2024: ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в треке секции NLP: ods.ai/tracks/df24-nlp
______
Наши соц.сети:
Telegram: t.me/datafest
Вконтакте: datafest
Канал с вакансиями в telegram: t.me/odsjobs
Канал с апдейтами по курсам: t.me/odscourses
Как попасть в чат сообщества ODS Mattermost: ods.ai/tracks/mattermost
zhlédnutí: 159
Video
Юрий Кацер | Открытые промышленные данные: зачем нужны, почему так мало и где брать?
zhlédnutí 145Před dnem
Спикер: Юрий Кацер, Рокет Контрол, DS team lead, эксперт по анализу данных и машинному обучению в задачах промышленности, автор тг-канала @datakatser Полезные ссылки: github.com/YKatser/Industrial-ML Data Fest 2024: ods.ai/events/datafest2024 Презентацию к докладу Вы можете скачать в треке секции OpenSource: ods.ai/tracks/df24-opensource Наши соц.сети: Telegram: t.me/datafest Вконтакте: ...
Наталья Ковальчук | Из Geoscience в Data Science: плюсы, минусы, подводные камни
zhlédnutí 173Před dnem
Спикер: Наталья Ковальчук, SmartGeoAdviser, разработчик алгоритмов машинного обучения Data Fest 2024: ods.ai/events/datafest2024 Презентацию к докладу Вы можете скачать в треке Career: ods.ai/tracks/df24-career Наши соц.сети: Telegram: t.me/datafest Вконтакте: datafest Канал с вакансиями в telegram: t.me/odsjobs Канал с апдейтами по курсам: t.me/odscourses Как попасть в чат сообщества OD...
Валерия Ермолина | Модель прогноза LifetimePD на срок более года для МСФО (сегмент МБ)
zhlédnutí 381Před 22 hodinami
Спикер: Валерия Ермолина, ВТБ Data Fest 2024: ods.ai/events/datafest2024 Презентацию к докладу Вы можете скачать в треке секции Scoring: ods.ai/tracks/df24-scoring Наши соц.сети: Telegram: t.me/datafest Вконтакте: datafest Канал с вакансиями в telegram: t.me/odsjobs Канал с апдейтами по курсам: t.me/odscourses Как попасть в чат сообщества ODS Mattermost: ods.ai/tracks/mattermost
Илья Индык | Depth Estimation in Robotics
zhlédnutí 102Před 22 hodinami
Спикер: Илья Индык, CV Researcher, SberRoboticsCenter Data Fest 2024: ods.ai/events/datafest2024 Презентацию к докладу Вы можете скачать в треке секции Computer Vision: ods.ai/tracks/df24-cv Наши соц.сети: Telegram: t.me/datafest Вконтакте: datafest Канал с вакансиями в telegram: t.me/odsjobs Канал с апдейтами по курсам: t.me/odscourses Как попасть в чат сообщества ODS Mattermost: ods.ai...
Герман Родиков | Predicting specific time series by blending deep learning techniques
zhlédnutí 184Před 22 hodinami
Спикер: Герман Родиков, University of Bologna Тема доклада: Predicting specific time series by blending deep learning techniques with domain-specific knowledge Data Fest 2024: ods.ai/events/datafest2024 Презентацию к докладу Вы можете скачать в треке секции Time Series: ods.ai/tracks/df24-time-series Наши соц.сети: Telegram: t.me/datafest Вконтакте: datafest Канал с вакансиями в telegram...
Владимир Нечаев | Конвертация акцента в реальном времени (Real-time Accent Conversion)
zhlédnutí 170Před dnem
Спикер: Владимир Нечаев, ИГЭУ (Ивановский Государственный Энергетический Университет), исследователь. Описание: применение существующих моделей преобразования речи с иностранным акцентом в речь без иностранного акцента ограничено особенностями используемой архитектуры, которая не позволяет гибко менять тембр генерируемой речи и требует накопления контекста, что ведёт к увеличению задержки при г...
Илья Виноградов | ML in Rust - обзор возможностей, преимуществ использования экосистемы Rust в ML
zhlédnutí 400Před dnem
Спикер: Илья Виноградов, CodeScoring Data Fest 2024: ods.ai/events/datafest2024 Презентацию к докладу Вы можете скачать в треке секции RANDOM DS/ML: ods.ai/tracks/df24-randomdsml Наши соц.сети: Telegram: t.me/datafest Вконтакте: datafest Канал с вакансиями в telegram: t.me/odsjobs Канал с апдейтами по курсам: t.me/odscourses Как попасть в чат сообщества ODS Mattermost: ods.ai/tracks/matt...
Максим Утушкин | Эксперты в шоке: ГЕНИАЛЬНАЯ стратегия поиска аудитории кликбейтному контенту
zhlédnutí 401Před dnem
Спикер: Максим Утушкин, AI VK Data Fest 2024: ods.ai/events/datafest2024 Презентацию к докладу Вы можете скачать в треке секции RecSys: ods.ai/tracks/df24-recsys-vk Наши соц.сети: Telegram: t.me/datafest Вконтакте: datafest Канал с вакансиями в telegram: t.me/odsjobs Канал с апдейтами по курсам: t.me/odscourses Как попасть в чат сообщества ODS Mattermost: ods.ai/tracks/mattermost
Илья Першин | Планирование лучевой терапии на основе взгляда
zhlédnutí 179Před dnem
Спикер: Илья Першин, АНО ВО “Университет Иннополис” Тема доклада: При планировании лучевой терапии необходимо разметить большое количество анатомических областей. Задача осложняется тем, что: 1) используются объемные медицинские изображения (КТ, МРТ); 2) пациенты имеют абнормалии в органах, поэтому результаты автоматической сегментации требуют ручных исправлений. Для того, чтобы перевести курсо...
Егор Швецов | Model compression -Introduction intro Quantization
zhlédnutí 434Před dnem
Спикер: Егор Швецов, Сколтех Тема доклада: Затронет аспекты оптимизации инференса нейронных сетей, начиная от железа, заканчивая исследованиями по оптимизации LLM Data Fest 2024: ods.ai/events/datafest2024 Презентацию к докладу Вы можете скачать в треке OptimalDL: ods.ai/tracks/df24-optimaldl Наши соц.сети: Telegram: t.me/datafest Вконтакте: datafest Канал с вакансиями в telegram: t.me/o...
Мария Портнова | Почему инженеру важны soft skills
zhlédnutí 530Před dnem
Спикер: Мария Портнова Data Fest 2024: ods.ai/events/datafest2024 Трек секции DS Career, early game edition: ods.ai/tracks/df24-ds-career-early-game-edition Наши соц.сети: Telegram: t.me/datafest Вконтакте: datafest Канал с вакансиями в telegram: t.me/odsjobs Канал с апдейтами по курсам: t.me/odscourses Как попасть в чат сообщества ODS Mattermost: ods.ai/tracks/mattermost
Евгений Погребняк | "Пришел к успеху" в open source: опыт популяризации утилиты justpath
zhlédnutí 219Před dnem
Спикер: Евгений Погребняк, Цифровая кафедра МГИМО, руководитель github.com/epogrebnyak/justpath Data Fest 2024: ods.ai/events/datafest2024 Презентацию к докладу Вы можете скачать в треке секции OpenSource: ods.ai/tracks/df24-opensource Наши соц.сети: Telegram: t.me/datafest Вконтакте: datafest Канал с вакансиями в telegram: t.me/odsjobs Канал с апдейтами по курсам: t.me/odscourses Как по...
Данила Родионов, Артём Пчелинцев | Mosaica-посчитать эффект от маркетинга «по кусочкам» с помощью ML
zhlédnutí 543Před dnem
Спикеры: Данила Родионов, Артём Пчелинцев, МТС Big Data Data Fest 2024: ods.ai/events/datafest2024 Презентацию к докладу Вы можете скачать в треке секции ML in Marketing: ods.ai/tracks/df24-ml-in-marketing Наши соц.сети: Telegram: t.me/datafest Вконтакте: datafest Канал с вакансиями в telegram: t.me/odsjobs Канал с апдейтами по курсам: t.me/odscourses Как попасть в чат сообщества ODS Mat...
Малик Мохрат | A Pipeline of Data Mining and Training for Navigation Foundation Models
zhlédnutí 152Před dnem
Спикер: Малик Мохрат, Research-Engineers at SberRoboticsCenter Data Fest 2024: ods.ai/events/datafest2024 Презентацию к докладу Вы можете скачать в треке Robotics: ods.ai/tracks/df24-robotics Наши соц.сети: Telegram: t.me/datafest Вконтакте: datafest Канал с вакансиями в telegram: t.me/odsjobs Канал с апдейтами по курсам: t.me/odscourses Как попасть в чат сообщества ODS Mattermost: ods.a...
Элеонора Пословская | От мала до велика: найдем и вырастим перспективных новых авторов ВКонтакте
zhlédnutí 199Před dnem
Элеонора Пословская | От мала до велика: найдем и вырастим перспективных новых авторов ВКонтакте
Михаил Орженовский | LLM-агенты в Minecraft
zhlédnutí 279Před dnem
Михаил Орженовский | LLM-агенты в Minecraft
Валерия Елпатьевская | LLM, NER и регулярки для парсинга резюме
zhlédnutí 1,1KPřed dnem
Валерия Елпатьевская | LLM, NER и регулярки для парсинга резюме
Георгий Апарин | Адаптация ASR моделей к специфическим данным
zhlédnutí 245Před dnem
Георгий Апарин | Адаптация ASR моделей к специфическим данным
Мария Филиппова | Метод оценки выбросов парниковых газов
zhlédnutí 227Před dnem
Мария Филиппова | Метод оценки выбросов парниковых газов
Наталия Вареник | Распознавание данных по фото СТС
zhlédnutí 705Před dnem
Наталия Вареник | Распознавание данных по фото СТС
Александр Булкин | Методы машинного обучения для оценки влияния природных катастроф
zhlédnutí 231Před dnem
Александр Булкин | Методы машинного обучения для оценки влияния природных катастроф
Александр Греков | Прогноз и выделение аномалий в данных активности двустворчатых моллюсков
zhlédnutí 160Před dnem
Александр Греков | Прогноз и выделение аномалий в данных активности двустворчатых моллюсков
Yulia Ibragimova: Stories Told by Data or Deep Impact without Deep Learning
zhlédnutí 175Před dnem
Yulia Ibragimova: Stories Told by Data or Deep Impact without Deep Learning
Career WFH WFO BATTLE Michael Kachala Tati Gabru PPleskov
zhlédnutí 347Před dnem
Career WFH WFO BATTLE Michael Kachala Tati Gabru PPleskov
Andrey Lukyanenko: DS minus ML: metro analytics and visualization
zhlédnutí 116Před dnem
Andrey Lukyanenko: DS minus ML: metro analytics and visualization
Career Pavel Pleskov Tips on landing a remote DSML job at a startup
zhlédnutí 235Před dnem
Career Pavel Pleskov Tips on landing a remote DSML job at a startup
Проблемма заключается в том, что в LLM запихивают не знания..., а книги содержащие огромное колличество лжи и лицемерия (на самом базовом уровне)..., а потом сами удивляются, почему их LLM страдает галлюцинациями, откровенно врёт и пытается манипулировать собеседником... Да потому, что люди их создававшие - именно такие...!!!
Хахаха, вареник
На 46:45 где формулу квантования писал, забыл про z
Голос комментатора за кадром "конечно же, оказалось, что инженеру важны hard skills, и никакое количество англоязычных терминов и попыток найти себе место в богатой индустрии так и не уговорили Гугл оставить DEI, к явному удовольствию аутиста Пети "Tlǝ!1axu" Пупкина, жутко уставшего от ежегодных курсов по инклюзивности, ради которых приходилось ездить в офис, зарабатывая безумный стресс от постоянных попыток коллег с ним заговорить и даже иногда пожать ему руку, после чего он ещё две недели приходил в себя и не мог полностью сосредоточиться на любимой задаче по многофакторной оптимизации космической робофабрики".
Ну это только в low-lvl технологиях
На этом же канале недавно был короткий рассказ от Владимира Игловикова. Там была хорошо раскрыта тема софт-скиллов, зачем они и какие бывают. Там и умение преподнести свою работу и умение продать свои задачи смежным командам.
Жулики какие-то, никто их не может проверить, впаривай что угодно
когда природа наградила умом только для профессии эйчарщицы..
Clark Mark Jackson Susan Jones Lisa
Докладчик как будто вещает из комнаты со спящей злой бабушкой, которую боится разбудить
Аах хах, похоже, воспоминания из школы нахлынули?)
Было бы здорово чтобы в первую минуту презентации она отвечала на вопрос "НА КАКОЙ ЧЕРТ?" , а уже потом какие-то неважные детали по типу а как мы это делали а шо а как там тот API устроен и тд
На какой черт мне это нужно/полезно / как это использовать.
интересно. был подобный опыт также, когда на эвристиках было и быстрее и в среднем лучше чем моделька, только я использовал не natasha (отличная либа , но мне для английского надо было и для очень домен-специфичного кейса сложных таблиц+документов, когда NER на бертах довольно плохо себя показывал, а желания делать аннотации не было), а самописный парсер на основе networkx (который разбирал документ на части/на секции в зависимости от всяких эвристик) + spacy + pyparsing (все что можно описать регэкспами/грамматиками отлично парсится этой штукой, типа дат, номеров и прочего, - при высокой читаемости правил) + словари (простые на trie, но по сути это как у вас вместо поиска) насчет бенчмарка - было бы интересно это видеть в разрезе двумерного плота, какой-нибудь F1 weighted/micro/macro vs Время и тогда по Парето фронту видно сразу кто лучший. PS. насчет заголовков, гипотетически это также можно NERом делать, т.е. разметить дополнительной секции документов (начало секций и конец опционально, либо просто разметить title секции) - насколько это докинет по качеству, большой вопрос (по идее модель и так должна выучить "со-сочетаемость" секции и каких-то тэгов если такова имеется, возможно и не имеет смысла) . интересно было бы увидеть подходы и эксперименты по гибридизации подходов, например эвристики и поиск+LLMs (например там где поиск не уверен, - что можно сформулировать каким-то излишним разнообразием тэгов в маленьком top_k, отправлять на проверку LLMs - типа выбери нужное)
С бустом что-то очень странное, по сравнению с рф особенно. Похоже на явный оверфит, которого можно было избежать
За доклад спасибо, полезно)
"я забыл про что хотел сказать..." Самое крутое место в лекции.
Классный доклад и интересное решение
Пейперы? Гап? АПИ ? режут слух просто отвратительно. Неужели нельзя называть это Документацией, промежутком и Эй-Пи-Ай ? На кухне то понятно, а когда делаешь презентацию......
Сомнительно предоставлять какие либо технологии для компаний с гос участием, пока в правительстве страны находятся не адекватные люди, развязывающие войны и терроризирующими граждан псевдозаконами направленными на ограничение свободы.
Валидное замечание на 17:40 Если алгоритм A очень хорош, то продавец может купить еще одно продвижение и тем самым увеличится выручка не только в A, но и в B. Это не выглядит как очень большой лик, но тем не менее он есть
Спасибо
подробнее про упоминаемый метод эмбеддинга последовательностей CoLES можно почить в arxiv CoLES: Contrastive Learning for Event Sequences with Self-Supervision by Dmitrii Babaev et al. В данном случае я так понял, что мы эмбеддим последовательность всех транзакций (разных пользователей) произошедших внутри хекса за данный период.
Ну как вариант. 👍
Гугль и кат бюст...
очень интересно, но ничего не понятно
Спасибо
Вот она настоящая мошеннича
Новомодная дорогостоящая чушь. Эффективно же работали без МЛ 2 года назад.
Нереально крутой доклад! На русском очень мало информации по этой теме. Ксения, огромное спасибо за проделанную работу)
топ доклад, спасибо, принято
Ну дак может всё-таки сота попробовать? А то рекомендации у вас плохие. Вот честно, специально размечал вам данные, ставил лайки только на релевантный контент, просил не рекомендовать контент, полгода так уже делаю, но это не сильно помогает.
Подача очень сырая: галопом по европам. Лучше меньше, да лучше, окей?
А что если вместо B, I, O предсказывать только I, O, а потом каждую I, если она первая, заменять на B?
Доклад понравился, но вопросы задавали.....
стрессоустойчивость-навык
джонсина и мусина тоже навыки
привет бустинги сложно, но можно интерпретировать (ну как минимум первое дерево 😃шутка, но не совсем). Даже если в деревья не закапываться, но по шапам+корреляциям с таргетом зачастую видно, это компенсирующие фичи или бустящие в узком месте. Опять же значимые улучшения, некорректные собранные фичи с подглядываниями и тп, а также некорректные инпуты увидеть можно практически сразу, в остальных кейсах скор ведь важнее, чем интерпретация, или у вас с этим строго? конечно если поднимать катбуст с grow_policy=symmetricTree, можно про интерпретацию практически забыть у линейных моделей с валидацией на таймсериес датасетах бывают проблемы, но вы в курсе наверно. Линейные модели предполагают, что данные независимы, у вас редко такое бывает, если только не разбивать валидацию на какие-то другие минимальные атомарные единицы (мы в спорте били по играм). Также линейные модели предполагают, что дисперсия стационарна (гомоскедастичность), ну аналогично также поскольку у вас проблем с экстраполяцией нет, можно бленд с RF как минимум проверить, у него с интерпретируемостью лучше чем у бустов (мб не прав, если есть киллер фичи, которые в любом дереве обязательно должны быть для последующих хороших разбиений, то мб не зайдёт)
Спасибо
Спасибо
Спасибо
А где Бременские музыканты?
Вы бы блять сперва кодить научились, наворачивают они тут
Здравствуйте. спасибо за доклад, есть неск. вопросов: 10:41 "в России все предсказывают давно": 1. уточните, пожалуйста, *что именно предсказывают сервисы по снимкам* (здравый смысл подсказывает, что надо разделять предикцию ВRС в разных случаях/комбинациях: например, в случае отсутствия клинических проявлений/жалоб (скрининговый снимок); в случае генетической предрасположенности (мутации), предсказание скорости развития заболевания уже при клинической манифестации заболевания (роста опухоли) и пр.) 2. полное совпадение мнения врача и ИИ: 48%. - опять же, по каким "шкалам" идет оценка и чего именно? есть рак / нет рака? 3. предполагаю, что когда мы говорим о совпадении *мнения врача* и ИИ - еще было бы неплохо узнать, а какова точность прогнозов самого врача (они ведь тоже ошибаются. А мождет быть, несовпадение с мнением врача ИИ как раз показатель лучшей модели). спасибо
На 16:11 очень интересно про свой токенизатор рассказано!
Умничка ❤
qr код не работает
Спасибо, очень интересно
Х у е т а ни о чем
Сразу вспомнилось ситуация, когда тренер пробовал заставить чатгпт составить ему тренировочный план, и в итоге он ему вывел что то непотребное. Спустя 40 минут и вагон генерируемых попутно уточнений они все же смог выдать что то вменяемое. Но прикол был в том, чтобы выявить несоответствие и правильно подобрать уточнения оказалось нужно обладать такой квалификацией в данной теме, что никакой чатгпт уже не нужен... И это было утрированно упрощённая задача, что вызывает некоторый скепсис в том, как чапгат сможет ввести с нуля до полезного сотрудника в гораздо более комплексной теме, и не навалит ли он так же вагон некорректной и не релевантной информации, которую поосто невозможно применить для конечного результата... И будет учиться ради того, чтобы учиться нарабатывая себе на рекомендательное письмо в дурку?
Кажется, доклад не отвечает на поставленный вопрос Здорово, что докладчик подсвечивает необходимость "мягких" навыков, знаний в разных областях (не только ML), показывает статистику по специалистам - это полезно. Но ответ по докладу на "как стать senior in DS" - "нормально делай, нормально будет" и "дорогу осилит идущий". Не то, чтобы могут быть какие-то волшебные пилюли...
теречно. но не интеллектуально
Это практикум)))
Data engineer тоже будет интересно послушать на тему медицинского ML 🙏🙏