Fine-tuning LLM: fakty i mity
Vložit
- čas přidán 1. 07. 2024
- 🎙️ Czy zdarza Ci się zastanawiać, jak powstają zaawansowane modele AI, takie jak ChatGPT? Czy wiesz, że trening takiego modelu może kosztować tyle, co luksusowy apartament w Warszawie (a w skali GPT nawet znacznie więcej)? A może ciekawi Cię, ile czasu zajmuje przygotowanie dużego modelu językowego? No właśnie! Tym zajmiemy się w 123. odcinku podcastu "Biznes Myśli", gdzie zgłębiamy tajniki fine-tuningu modeli LLM! Ale przejdziemy krok po kroku, aby dojść do etapu fine-tuning. Gościem dzisiejszego odcinka jest Remigiusz Kinas, ekspert AI i członek core teamu projektu SpeakLeash. Rozmawiamy o faktach i mitach związanych z treningiem modeli językowych. Kawał wiedzy dla Ciebie.
W tym odcinku koncentrujemy się na wyjaśnieniu kluczowych etapów trenowania modeli LLM, takich jak pre-training, fine-tuning oraz alignment, oraz na omówieniu ich zastosowań i wyzwań.
Dowiesz się:
Jak wygląda proces trenowania dużych modeli językowych od podstaw?
Czym jest fine-tuning i kiedy warto go stosować?
Jakie są kluczowe etapy tworzenia modeli AI i dlaczego dane są tak ważne?
Jakie superkomputery są używane do trenowania AI i ile to kosztuje?
Jak wygląda praca nad polskim modelem językowym Bielik 2.0?
Zapraszam!
🕒 Najważniejsze fragmenty:
00:01:52 - Remigiusz Kinas przedstawia się i opowiada o swoim doświadczeniu z ML/AI
00:08:57 - Wyjaśnienie czym jest fine-tuning modeli na przykładzie Computer Vision
00:14:23 - Omówienie różnych rodzajów modeli językowych (pre-trained, instruct, fine-tuned)
00:30:00 - Czym jest T? Trilion czy bilion?
00:31:05 - Ile danych potrzebujemy?
00:43:53 - Cyfronet Helios, czyli na czym był trenowany Bielik?
00:47:15 - Ile kart GPU ma Meta (Facebook)?
00:27:34 - Dlaczego dane są najważniejsze w procesie trenowania modeli AI
00:53:00 - Ile kosztuje wytrenować model LLM?
00:58:32 - Czy warto robić fine-tuning?
01:09:07 - Co nowego w Bieliku 2?
01:24:42 - Podsumowanie
Linki:
biznesmysli.pl/fine-tuning-ll...
ai.meta.com/blog/meta-llama-3/
opencsg.com/datasets/AIWizard...
top500.org/lists/green500/lis...
github.com/meta-llama/llama/b...
github.com/NVIDIA/Megatron-LM
github.com/hiyouga/LLaMA-Factory
arxiv.org/pdf/2406.06608
github.com/vllm-project/vllm
LinkedIn:
- / remigiusz-kinas
- / vladimiralekseichenko
W podcaście omówiono:
Rodzaje modeli LLM:
- Model bazowy (pre-trained): Posiada ogromną wiedzę, ale nie potrafi prowadzić konwersacji - służy do przewidywania następnego słowa.
- Model instrukcyjny (instruct): Potrafi wykonywać polecenia i prowadzić konwersacje. Powstaje poprzez fine-tuning modelu bazowego.
- Model po alignmencie: Model instrukcyjny dodatkowo "wygładzony" i dostosowany do preferowanego stylu konwersacji.
Fazy trenowania modelu:
- Pre-training: Najważniejsza faza, w której model nabywa wiedzę. Wymaga ogromnych zbiorów danych i jest bardzo kosztowna (rzędu setek tysięcy dolarów).
- Fine-tuning: Dostrajanie modelu do konkretnych zadań. Wymaga mniejszych zbiorów danych i jest tańszy od pre-trainu.
- Alignment: Dopasowanie stylu i sposobu odpowiedzi modelu. Wymaga najmniej danych i jest najtańszy.
Dane:
- Pre-training: Dane tekstowe w ogromnej ilości (terabajty), im więcej, tym lepiej. Ważna jest jakość danych.
- Fine-tuning: Instrukcje dla modelu (polecenia i przykładowe odpowiedzi) w ilości od tysięcy do milionów.
- Alignment: Pary odpowiedzi (preferowana i odrzucona) w ilości kilku tysięcy.
Koszty:
- Pre-training: Bardzo wysokie, porównywalne z ceną mieszkania w Warszawie.
- Fine-tuning: Znacznie niższe od pre-trainu.
- Alignment: Niskie, możliwe do przeprowadzenia na lokalnej maszynie.
Mit fine-tuningu jako rozwiązania na wszystko:
- W większości przypadków fine-tuning nie jest konieczny.
- Lepiej skupić się na promptowaniu (zadawaniu precyzyjnych pytań) i technikach RAG (Retrieval Augmented Generation - wzbogacanie odpowiedzi o dane z zewnętrznych źródeł).
- Fine-tuning może być przydatny w wąskich dziedzinach, dla specyficznych formatów odpowiedzi lub w celu zapewnienia bezpieczeństwa danych.
Bielik 2.0: Nowa wersja polskiego modelu językowego.
- Większy model (11 miliardów parametrów).
- Dłuższy kontekst wejściowy (32 tysiące tokenów).
- Wsparcie dla Function Calling (beta).
- Uczenie wzmacniane (RLHF).
- Więcej wersji kwantyzacyjnych.
- Wsparcie dla VLLM.
- Test na inteligencję emocjonalną (EQ Bench).
- Planowana wersja multimodalna (tekst i obraz).
#ai #genai #llm #podcast #machinelearning #datascience #finetuning
Świetny wywiad. Mnóstwo ciekawej wiedzy podanej w bardzo przystępny sposób. No i serce rośnie, że mamy tak mocnych ludzi w branży jak p.Remigiusz czy wspomniani ludzie ze Spichlerza. Duże DZIĘKI i proszę o więcej !
Bardzo dobry materiał, sporo treści takich "dla przypomnienia/utrwalenia" i wiele o Bieliku. Ciekawa zapowiedź Bielika z obrazkami :-). Mam nadzieje, że Gościa jeszcze posłuchamy na tym kanale.
Niech rzeczy wydarzą się. Np. pojawi się multimodal czy może już Bielik 3 :)
Cześć. Dzięki za bardzo wartościowy materiał. Pytanie: czy Bielik docelowo będzie wystawiał moduł do embeddingu?
Bardzo fajny materiał, dużo szczegółowej wiedzy, chociaż brakło informacji o fine tuningu LoRA. Trzymam kciuki za Bielika... oby był lepszy od llama3-8b.
To zawsze jest wyzwanie, jak głęboko zanurzyć się od razu. Do LoRA i podobnych tematów myślę, że jeszcze będzie okazja - na razie wyrównuję wiedzę, aby nadążała większość. Też to już bardziej szczegół implementacyjny.
Inna sprawa to bardziej techniczne tematy, jest trudno przekazywać w formie podcastu. W takich przypadkach lepiej sprawdzają się warsztaty lub podobne formy.
Dzięki za komentarz - od razu generuję pomysły, co z tym można zrobić.
Bardzo ciekawy podcast
Super rozmowa.
Dziękuję Ci bardzo :)
Starałem się zrozumieć to mambo-jumbo i opis. ale Pan Kinas nie dotknął w najmniejszym stopniu opisu jak ten model działa tj dla czego Bielik nie myśli !! Te jego odpowiedzi są całkowicie pozbawione myślenia . Jak trenowaliście ten model ? Czy te drogie maszyny miałyby spowodować myślenie ?
Koleś robi bardzo fajny nikomu nie potrzebny LLM
Dlaczego Twoim zdaniem jest niepotrzebny?
Bielik nigdy wprost nie będzie konkurencją dla GPT czy innych podobnych modeli (np. Claude), ale jeśli mówimy TYLKO o języku polskim i do tego jeszcze będzie miał licencję umożliwiającą używanie komercyjne, to może być bardzo przydatnym modelem.