Обучение модели Word2Vec | Обработка естественного языка

Sdílet
Vložit
  • čas přidán 9. 06. 2024
  • Демонстрация обучения модели Word2Vec на собственных данных с помощью библиотеки Gensim.
    00:00 - Подготовка набора данных
    01:17 - Обучение модели Word2Vec в Gensim
    02:59 - Тестирование обученной модели
    05:06 - Сохранение обученной модели
    Библиотека Gensim - radimrehurek.com/gensim/index...
    Word2Vec в Gensim - radimrehurek.com/gensim/auto_...
    Colab ноутбук из видео - colab.research.google.com/dri...
    Проект реализуется победителем Конкурса на предоставление грантов преподавателям магистратуры благотворительной программы "Стипендиальная программа Владимира Потанина" Благотворительного фонда Владимира Потанина"
    вКонтакте - avsozykin
    telegram - t.me/a_sozykin
    Мой сайт - www.asozykin.ru
    Мой канал с краткими и понятными объяснениями сложных тем в ИТ и компьютерных науках - / andreysozykincs
  • Věda a technologie

Komentáře • 13

  • @user-hb6dg7gp3b
    @user-hb6dg7gp3b Před 9 měsíci +2

    Самые полезные 7 минут, которые можно было провести в CZcams. Спасибо, очень хочется попрактиковаться поскорее))

  • @bgdb1gbuz668
    @bgdb1gbuz668 Před 5 měsíci +2

    Подскажите. почему Colab ноутбук из видео выдает ошибку в первой же строке выполнения?
    note: This error originates from a subprocess, and is likely not a problem with pip.
    Building wheel for DAWG (setup.py) ... error
    ERROR: Failed building wheel for DAWG
    Running setup.py clean for DAWG
    Failed to build DAWG
    ERROR: Could not build wheels for DAWG, which is required to install pyproject.toml-based projects

  • @user-zj3ih2ux5e
    @user-zj3ih2ux5e Před rokem +1

    Спасибо, очень полезно. Однозначно лайк.

    • @AndreySozykin
      @AndreySozykin  Před rokem

      Пожалуйста! Рад, что видео полезно!

  • @sergeykartyshov2846
    @sergeykartyshov2846 Před rokem

    Подскажите, пожалуйста, нужно ли при использовании fastText делать токенизацию и лемматизацию при подготовке текста для обучения? Смущает то, что для токенизации используется какая то уже предварительно обученная модель (неважно в NLTK или в spaCy). То есть на новой предметной области эти готовые модели могут давать ошибки при токенизации. Верно ли, что для fastText эти этапы не нужны? (То есть делаем только приведения к нижнему регистру и удаляем знаки препинания и лишние пробелы)

  • @sergeykartyshov2846
    @sergeykartyshov2846 Před rokem +1

    Спасибо за лекции! Подскажите, стоит ли использовать для работы с векторами библиотеку spaCy? В лекциях Dr. W.J.B. Mattingly рекомендуется сначала получить вектора в gensim, а потом уже загрузить их в spaCy, но будет ли тогда правильно работать морфологический и синтаксический элементы пайплайна на русских текстах?

    • @AndreySozykin
      @AndreySozykin  Před rokem

      К сожалению, не использовал пайплайны spaCy для русских текстов, поэтому не могу сказать, как это будет работать.

  • @casino_hacker_777
    @casino_hacker_777 Před rokem +1

    Здравствуйте. Делаю бота для поиска заказов фрилансерам. Есть проблема в определении категорий заказа, хочется написать нейронку для этого какую-то, сам в этом вообще не разбираюсь, подскажите пожалуйста, что посмотреть или почитать для данной задачи

    • @AndreySozykin
      @AndreySozykin  Před rokem

      Можно посмотреть модели Zero-shot classification - huggingface.co/tasks/zero-shot-classification. Это уже обученные модели, которые могут распознавать новые классы, которые не видели в процессе обучения.
      Если подойдет какая-то из этих сетей, то не нужно будет самому ничего писать.

  • @globalnucleartrue
    @globalnucleartrue Před rokem +1

    Непонятно только на что влияет длина вектора. Где подробнее про это посмотреть? Я так понимаю, что на точность значения, но как определить эту длину в каждом конкретном случае? Вот тут 50, там 300, какую выбрать?

    • @user-hb6dg7gp3b
      @user-hb6dg7gp3b Před 9 měsíci +1

      Скорее всего, вектор из 300 весов будет более точным. Но не факт, что значительно. С другой стороны, модель с векторами по 300 очень тяжелая, и у меня, например, ноутбук в Kaggle её не потянул((

  • @user-co7wd3cv4x
    @user-co7wd3cv4x Před rokem +1

    Являются ли СитиБанк и АльфаБанк спонсорами? :)) Столько уже про них хорошего:)