Файнтюнинг на примере Llama 3 + QLoRA. ПРОЩЕ и ЭФФЕКТИВНЕЕ чем когда-либо
Vložit
- čas přidán 27. 04. 2024
- В этом видео я показываю, как выполнить файнтюнинг Llama 3 максимально просто, как настроить GPU и программный стек.
💻 immers.cloud - широкий выбор карт для обучения и инференса нейронных сетей: immers.cloud/signup/r/2024042...
Один из ведущих поставщиков услуг IaaS (Infrastructure as a Service) в России, специализирующийся на использовании графических процессоров (GPU).
Сервис предлагает конкурентоспособные цены и интуитивно понятный интерфейс, который даже начинающие пользователи могут легко освоить и начать работу с необходимым программным обеспечением.
💻 gptchain - фреймворк для быстрого развертывания AI-ассистентов: github.com/RuslanPeresy/gptchain
Поддерживает интеграцию с Telegram-ботом, Retrieval Augmented Generation (RAG), деплой моделей на LLM сервер и файнтюнинг LLM на собственных данных.
Телеграм-канал: t.me/ruslandevlive
Дискорд: / discord
🤗 Веса моей модели: huggingface.co/ruslandev/llam...
В карточке модели - гиперпараметры, которые я использовал при файнтюнинге, и формат моего промпта, а также метрики обучения.
Это описание содержит реферальные ссылки. - Věda a technologie
Вышла новая часть - Файнтюнинг и квантизация Llama-3-70B czcams.com/video/ML4M1UQHxbU/video.html
Я обучил самую большую пока Ламу на мультиязычном датасете, и она начала следовать инструкциям на русском.
А также я показал процесс квантизации модели с сохранением в формат gguf.
Честно говоря я ожидал большего. В начале видоса был радостный возглас: "наконец-то мы получили модель сопоставимую по качеству с GPT-4"!!! Речь шла конечно о Llama-3-70b И потом автор с покер-фейсом просто берёт для своего фантюнинга модель Llama-3-8b-4bit. То есть не только модель в на порядок меньше так ещё и квантизованую по самое нибалуйся. Я ожидал увидеть процесс обучения 70b квантизованой до 8 бит модели на A100 GPU камне и понять примерно сколько времени это может занять. И дообучать чему-то полезному например вопросам и ответам на русском языке. В этом видосе кстати сам процесс обучения скипнут хотя это самое интересное можно было показать минуту начала и минуту конца. Просто так скипать весь процесс это не правильно потому что ради этого процесса все эти подготовительные танцы с бубном и проделывались.
Согласен. Тоже хотелось бы увидеть работу с моделью 70B и обучение на русском датасете, потому что инференс на русском языке у llama 3 из коробки местами весьма корявенький (по крайней мере, то, что я увидел на 8B). Если аренда ресурсов под обучение 70B окажется довольно дорогой по стоимости, то показать хотя бы расчеты и минимально необходимые ресурсы для запуска.
В любом случае, ролик полезен и автору спасибо за то, что делится знаниями! Квантизацию и конвертацию в GGUF тоже ждем.
Спасибо большое за ролик. Было бы здорово увидеть ролик про квантизацию и разбор Вашей библиотеки.
Квантизацию модели с последующей конвертацией в GGUF поддерживаю.
Было бы ещё Здорово эту модель залить на хостинг через фласк или Джанго чтобы она там отвечала на вопросы,(конечно в закрытом режиме для безопасности) также было бы интересно посмотреть как реализовывается Telegram бот с её помощью, конечно после того как квантизация будет сделана. Думаю что это были бы очень ценные ролики для многих.
Квантизацию модели с последующей конвертацией в GGUF поддерживаю!
Квантизация очень интересна! И не сколько для мобильных устройств, сколько запуск тяжёлых моделей (70-30B) на 24Gb видеокартах, Tesla P40, например. Запуск на нескольких видеокартах, оптимизация под разные архитектуры...
Хорошее видео, спасибо! Интересно увидеть продолжение видео.
спасибо. это нужное видео
Привет 👋 было бы круто если бы она в конце ответа не как обычно говорила бы чем ещё помочь а сначала бы предложила свой собственный вопрос для продления темы которая рассказывала только что, что бы вопрос её был на столько интересным от которого не возможно было-бы удержатся и сказать ей , да я хочу знать ответ на этот вопрос , тем самым она могла бы затягивать общение все глубже и обширней в той теме которая началась из начально !)
Да это интересно. Спасибо за Вашу работу.
Мужик спасибо. Давно хотел что-то подобное 🔥
Спасибо, очень интересно. Квантизацию поддерживаю. Интересно познакомиться поближе с библиотекой.
Интересно, продолжай в том же духе 👍
Интересно! И ещё полную подготовку датасета для обучения.
А если обучить на своём датасете по определённому домену, насколько хорошо она будет отвечать по этому домену без подгрузки контекста
Спасибо за видео. Да, интерересно было бы продолжение с получением gguf
Да. Очень интересно! Продолжи пожалуйста по квантизацию и создание gguf
Всё интересно, квантизация тоже, но также интересует дообучение модели и практические рекомендации по сбору хорошего датасета для русского языка
Добрый день! Было бы очень интересно как вы конвертируете модель в формат для TensorRT и запускаете её, собственно на TensorRT. Особенно интересно было бы измерить прирост в скорости.
Да , интересно
Первое предложение автору. Если тебе не хватает денег на те или иные эксперименты, то предлагаю делать краудфандинг. Можно прям тут на ютубе - типа хотите посмотреть на файн-тюнинг и квантизацию llama 3 70b - скидывайте бабосы
Сколько ресурсов ест в процессе обучения, и сколько когда модель готова . Есть метрики?
Было бы интересно про метрики и сравнение качества моделей, а то на глаз такое себе. Вдруг при обучении она позабыла все.
Отличное видео, спасибо!Можете подсказать какие ещё есть популярные датасеты для файнтюнинга кроме Саманты и их предназначение
Dolphin - uncensored датасет от того же разработчика. В целом много чего есть на HF
Можешь показать, как сделать автономный, эффективный переводчик (чем больше языков, тем лучше, но для начала русский- английский хватило бы)? Какую модель лучше использовать и как?
Да, было бы интересно. Так же было бы интересно стоимости на подобные обучения. и цены на развертывание обученных моделей. к примеру Llama3 8B и Llama3 70B в какую сумму влетит если развернуть на данном сервисе?
Заранее спасибо!
да хотим увидеть квантилизацию
Было бы интересно получить инструкцию по дообучения на своих данных. Например у меня есть excel таблица с данными, скормили эту таблицу LLM, а она после отвечает по таблице. Такое возможно?
Это возможно и уже реализовано в некоторых сервисах на основе LLM. Думаю они для этого могут не дообучать исходную модель, а конвертировать данные в векторную форму и хранить в векторной базе данных. Сервис, получая запрос пользователя, выполняет поиск в базе данных и передаёт близкие по смыслу вложения в качестве подсказки модели. На основе запроса, подсказки и собственных данных, модель формирует ответ.
Интересно запустить инференс на чем-нибудь вроде Raspberry pi
Так, дуже цікаво!
Здравствуйте! Подскажите пожалуйста, какая лучше модель llm подойдет для задачи вытаскивания из текста названия книги, автора, года и издательства. Текст подается в промте, но он с ошибками и неточностями, так как распознается по фото книги моделью ocr)
можно поискать на Huggingface модели для задач Named Entity Recognition. Но вообще любая LLM уровня GPT-3.5 и выше для этого подойдет
Как обучить whisper? Нигде не могу найти видео на эту тему. Мне постоянно необходимо расшифровывать аудиозаписи в текст. Необученный whisper плохо работает с русским языком. Хотелось бы допилить модель, но не знаю как.
попробуй Silero она лучше русский распознаёт
на HF в разделе automatic speech recognition есть файнтюнинг-версии whisper, некоторые с кодом
Добрый день а вашу модель можно скачать и потестить на мак ос в ml studio?
Там как раз вроде бы guff если не ошибаюсь
Следующее видео про квантизацию, файл gguf из него - на моем Huggingface
@@ruslandev спасиб
привет,
hi, it's not clear. This is probably an advertisement for those in the know.нихера непонятно. Наверно это реклама или что?
Квантизацию модели с последующей конвертацией в GGUF поддерживаю.