【2023/07/27】一般庶民でもfine-tuningしたい! ~ローカルLLMのGPU節約の手法を解説~【アーカイブ】

Sdílet
Vložit
  • čas přidán 22. 08. 2024
  • 2022年にOpenAIがChatGPTを公開して以降、大規模言語モデル (LLM) 界隈は大きく盛り上がっています。 最近ではオープンソースのLLMが続々と公開されるようになり、そうしたモデルたちはローカル環境で動かしたり学習したりすることができます。
    しかし、一般にLLMは数十億以上のパラメータを持ち、全パラメータをロードするだけでも大量のメモリが必要になります。 一般的なスペックのGPUでは、LLMをメモリに乗せることすらできないのが現状です。fine-tuningは言わずもがなです。
    では、一般庶民はLLMを動かすことはできないのでしょうか? そんなことはありません。
    LLMの学習や推論に必要なGPUメモリを削減するための技術は多く研究されています。 今回はその中でも量子化 (quantization) とLoRA (Low-Rank Adaption) を紹介し、これらの技術を使って実際にOpenCALM (サイバーエージェント社のオープンソースLLM) をfine-tuningしてみた結果を共有します。
    ===
    2023/07/27に開催したオンラインセミナーのアーカイブ動画です。
    イベントページ:studyco.connpa...
    発表資料:speakerdeck.co...
    ===
    運営:studyco.io

Komentáře • 1

  • @re9236
    @re9236 Před 6 měsíci +1

    デカすぎんだろ...
    勉強になりました