Обучение модели Word2Vec | Обработка естественного языка

Andrey Sozykin

zhlédnutí 5 119

Přidat do
- Můj playlist
- Přehrát později
Sdílet

Sdílet

Vložit

Velikost videa:

Zobrazit ovladače přehrávání

Automatické přehrávání

Přehrát

čas přidán 9. 06. 2024
Демонстрация обучения модели Word2Vec на собственных данных с помощью библиотеки Gensim.
00:00 - Подготовка набора данных
01:17 - Обучение модели Word2Vec в Gensim
02:59 - Тестирование обученной модели
05:06 - Сохранение обученной модели
Библиотека Gensim - radimrehurek.com/gensim/index...
Word2Vec в Gensim - radimrehurek.com/gensim/auto_...
Colab ноутбук из видео - colab.research.google.com/dri...
Проект реализуется победителем Конкурса на предоставление грантов преподавателям магистратуры благотворительной программы "Стипендиальная программа Владимира Потанина" Благотворительного фонда Владимира Потанина"
вКонтакте - avsozykin
telegram - t.me/a_sozykin
Мой сайт - www.asozykin.ru
Мой канал с краткими и понятными объяснениями сложных тем в ИТ и компьютерных науках - / andreysozykincs
Věda a technologie

Komentáře • 13

@user-hb6dg7gp3b Před 9 měsíci ⁺²
Самые полезные 7 минут, которые можно было провести в CZcams. Спасибо, очень хочется попрактиковаться поскорее))
@bgdb1gbuz668 Před 5 měsíci ⁺²
Подскажите. почему Colab ноутбук из видео выдает ошибку в первой же строке выполнения?
note: This error originates from a subprocess, and is likely not a problem with pip.
Building wheel for DAWG (setup.py) ... error
ERROR: Failed building wheel for DAWG
Running setup.py clean for DAWG
Failed to build DAWG
ERROR: Could not build wheels for DAWG, which is required to install pyproject.toml-based projects
@user-zj3ih2ux5e Před rokem ⁺¹
Спасибо, очень полезно. Однозначно лайк.
@AndreySozykin Před rokem
Пожалуйста! Рад, что видео полезно!
@sergeykartyshov2846 Před rokem
Подскажите, пожалуйста, нужно ли при использовании fastText делать токенизацию и лемматизацию при подготовке текста для обучения? Смущает то, что для токенизации используется какая то уже предварительно обученная модель (неважно в NLTK или в spaCy). То есть на новой предметной области эти готовые модели могут давать ошибки при токенизации. Верно ли, что для fastText эти этапы не нужны? (То есть делаем только приведения к нижнему регистру и удаляем знаки препинания и лишние пробелы)
@sergeykartyshov2846 Před rokem ⁺¹
Спасибо за лекции! Подскажите, стоит ли использовать для работы с векторами библиотеку spaCy? В лекциях Dr. W.J.B. Mattingly рекомендуется сначала получить вектора в gensim, а потом уже загрузить их в spaCy, но будет ли тогда правильно работать морфологический и синтаксический элементы пайплайна на русских текстах?
@AndreySozykin Před rokem
К сожалению, не использовал пайплайны spaCy для русских текстов, поэтому не могу сказать, как это будет работать.
@casino_hacker_777 Před rokem ⁺¹
Здравствуйте. Делаю бота для поиска заказов фрилансерам. Есть проблема в определении категорий заказа, хочется написать нейронку для этого какую-то, сам в этом вообще не разбираюсь, подскажите пожалуйста, что посмотреть или почитать для данной задачи
@AndreySozykin Před rokem
Можно посмотреть модели Zero-shot classification - huggingface.co/tasks/zero-shot-classification. Это уже обученные модели, которые могут распознавать новые классы, которые не видели в процессе обучения.
Если подойдет какая-то из этих сетей, то не нужно будет самому ничего писать.
@globalnucleartrue Před rokem ⁺¹
Непонятно только на что влияет длина вектора. Где подробнее про это посмотреть? Я так понимаю, что на точность значения, но как определить эту длину в каждом конкретном случае? Вот тут 50, там 300, какую выбрать?
@user-hb6dg7gp3b Před 9 měsíci ⁺¹
Скорее всего, вектор из 300 весов будет более точным. Но не факт, что значительно. С другой стороны, модель с векторами по 300 очень тяжелая, и у меня, например, ноутбук в Kaggle её не потянул((
@user-co7wd3cv4x Před rokem ⁺¹
Являются ли СитиБанк и АльфаБанк спонсорами? :)) Столько уже про них хорошего:)
@AndreySozykin Před rokem ⁺²
Хорошая идея, но нет.

Další v pořadí

Automatické přehrávání

Классификация текста | Обработка естественного языка