Обучение модели Word2Vec | Обработка естественного языка
Vložit
- čas přidán 9. 06. 2024
- Демонстрация обучения модели Word2Vec на собственных данных с помощью библиотеки Gensim.
00:00 - Подготовка набора данных
01:17 - Обучение модели Word2Vec в Gensim
02:59 - Тестирование обученной модели
05:06 - Сохранение обученной модели
Библиотека Gensim - radimrehurek.com/gensim/index...
Word2Vec в Gensim - radimrehurek.com/gensim/auto_...
Colab ноутбук из видео - colab.research.google.com/dri...
Проект реализуется победителем Конкурса на предоставление грантов преподавателям магистратуры благотворительной программы "Стипендиальная программа Владимира Потанина" Благотворительного фонда Владимира Потанина"
вКонтакте - avsozykin
telegram - t.me/a_sozykin
Мой сайт - www.asozykin.ru
Мой канал с краткими и понятными объяснениями сложных тем в ИТ и компьютерных науках - / andreysozykincs - Věda a technologie
Самые полезные 7 минут, которые можно было провести в CZcams. Спасибо, очень хочется попрактиковаться поскорее))
Подскажите. почему Colab ноутбук из видео выдает ошибку в первой же строке выполнения?
note: This error originates from a subprocess, and is likely not a problem with pip.
Building wheel for DAWG (setup.py) ... error
ERROR: Failed building wheel for DAWG
Running setup.py clean for DAWG
Failed to build DAWG
ERROR: Could not build wheels for DAWG, which is required to install pyproject.toml-based projects
Спасибо, очень полезно. Однозначно лайк.
Пожалуйста! Рад, что видео полезно!
Подскажите, пожалуйста, нужно ли при использовании fastText делать токенизацию и лемматизацию при подготовке текста для обучения? Смущает то, что для токенизации используется какая то уже предварительно обученная модель (неважно в NLTK или в spaCy). То есть на новой предметной области эти готовые модели могут давать ошибки при токенизации. Верно ли, что для fastText эти этапы не нужны? (То есть делаем только приведения к нижнему регистру и удаляем знаки препинания и лишние пробелы)
Спасибо за лекции! Подскажите, стоит ли использовать для работы с векторами библиотеку spaCy? В лекциях Dr. W.J.B. Mattingly рекомендуется сначала получить вектора в gensim, а потом уже загрузить их в spaCy, но будет ли тогда правильно работать морфологический и синтаксический элементы пайплайна на русских текстах?
К сожалению, не использовал пайплайны spaCy для русских текстов, поэтому не могу сказать, как это будет работать.
Здравствуйте. Делаю бота для поиска заказов фрилансерам. Есть проблема в определении категорий заказа, хочется написать нейронку для этого какую-то, сам в этом вообще не разбираюсь, подскажите пожалуйста, что посмотреть или почитать для данной задачи
Можно посмотреть модели Zero-shot classification - huggingface.co/tasks/zero-shot-classification. Это уже обученные модели, которые могут распознавать новые классы, которые не видели в процессе обучения.
Если подойдет какая-то из этих сетей, то не нужно будет самому ничего писать.
Непонятно только на что влияет длина вектора. Где подробнее про это посмотреть? Я так понимаю, что на точность значения, но как определить эту длину в каждом конкретном случае? Вот тут 50, там 300, какую выбрать?
Скорее всего, вектор из 300 весов будет более точным. Но не факт, что значительно. С другой стороны, модель с векторами по 300 очень тяжелая, и у меня, например, ноутбук в Kaggle её не потянул((
Являются ли СитиБанк и АльфаБанк спонсорами? :)) Столько уже про них хорошего:)
Хорошая идея, но нет.