从零开始学习大语言模型(二)

Sdílet
Vložit
  • čas přidán 29. 05. 2024
  • 从零开始学习大语言模型(二):AI如何学会讲人话?
    我们在telegram创建了一个AI、科技的讨论频道,大家感兴趣的可以加进来一起交流: t.me/linyidiscuss
  • Věda a technologie

Komentáře • 75

  • @weihua44
    @weihua44 Před měsícem +42

    林毅的课让我知道了神里绫华是谁😂

  • @shih-binshih9889
    @shih-binshih9889 Před měsícem +2

    對於一個小白來說,我對您的分享只有滿滿的感謝,透過您的影片,我能夠看到一些些我原本這輩子都不可能理解的理論!

  • @AS-wx1pm
    @AS-wx1pm Před měsícem +4

    谢谢。期待下期!

  • @chenzhi-th2oy
    @chenzhi-th2oy Před měsícem

    先赞后看,持续追更

  • @35likaikou
    @35likaikou Před měsícem +23

    lollipop換成popillol好像沒錯丫?

    • @Elon66688
      @Elon66688 Před měsícem +5

      同问

    • @FuxiHuoxi
      @FuxiHuoxi Před měsícem +1

      视频里没错 林哥说的是有些ai可能出错是按lol li pop 为词粒度倒过来

    • @wizist
      @wizist Před měsícem +4

      @@FuxiHuoxi 這牽強了,為什麼不用其他 AI 演示呢?

    • @sy-ej7ms
      @sy-ej7ms Před měsícem +1

      應該問何謂倒過來 qoqillol loll!bob 這兩算不算倒過來

    • @hankdonald7812
      @hankdonald7812 Před měsícem +4

      lollipop,如果按照字粒度划分,并倒过来写,就是popillol,这样是正确的。如果按照lol,li,pop这样的子词粒度划分,然后再倒过来写,就是poplilol,这样就是错误的。

  • @user-kt5fd6hm7x
    @user-kt5fd6hm7x Před 29 dny

    谢谢您的分享

  • @rogetsun3656
    @rogetsun3656 Před měsícem +1

    终于有第二集了 哈哈

  • @pgmsia2516
    @pgmsia2516 Před měsícem +1

    加油 👏👏👏

  • @harryying4507
    @harryying4507 Před měsícem +4

    非常易懂!希望坚持

  • @nandychen
    @nandychen Před 22 dny

    干脆利落,棒!

  • @user-rs7dw9mj7l
    @user-rs7dw9mj7l Před měsícem

    成功的抢到了沙发啦

  • @leonardoy5088
    @leonardoy5088 Před 5 dny

    4:13 这么说Interestelar (星际穿越) 里碰那本书格局小了,直接控制电流用晶体管打字格局打开。

  • @user-yf6vm4rz5g
    @user-yf6vm4rz5g Před měsícem

    艾玛你终于来填坑了

  • @stevencurry995
    @stevencurry995 Před 24 dny

    谢谢谢谢谢谢

  • @youjunliu8463
    @youjunliu8463 Před měsícem

    林哥出現啦!

  • @puzhaotang479
    @puzhaotang479 Před dnem

    几个月后,终于看到了(二)

  • @guguwarcheif1123
    @guguwarcheif1123 Před měsícem +3

    大佬,请问没有好的电脑,不过有10几台老电脑,有没有方案可以来跑ai。

  • @j8ge
    @j8ge Před měsícem

    期待已久

  • @cyshall
    @cyshall Před měsícem +1

    林哥可以把大模型相关的教程单独放一个播放列表吗,省得翻找了可以随时复习

  • @Lyn19820327
    @Lyn19820327 Před měsícem

    好视频

  • @Henry-pj6gz
    @Henry-pj6gz Před měsícem +1

    希望之後的影片會是dark mode

  • @user-mo6eh8tr3u
    @user-mo6eh8tr3u Před měsícem

    11:11不過確實這種解法也是最符合人類邏輯的,正常人應該也不會去數一個字裡有幾個字母,叫我把lolipop反過來我第一個想到的也是poplilo😂

  • @s010860s
    @s010860s Před měsícem +2

    深入淺出 牛啤

  • @user-bk3gh3so4o
    @user-bk3gh3so4o Před měsícem +2

    省流:我是神里綾華的狗

  • @stevencaulfield6042
    @stevencaulfield6042 Před měsícem +1

    线代是机器学习的基础之一

  • @kenshinhu2823
    @kenshinhu2823 Před měsícem +1

    这集看起来是引出下一集Bert和GPT内容了

  • @sidega5397
    @sidega5397 Před měsícem

    追更ing

  • @bon_come
    @bon_come Před měsícem

    好希望有一個AI可以完全取代我做事

  • @loltou1
    @loltou1 Před 15 dny

    可以做個AI克隆人的教學

  • @user-km5bt1gz3i
    @user-km5bt1gz3i Před 26 dny

    啥时候出第三期?

  • @alexhuang3965
    @alexhuang3965 Před měsícem +2

    为什么整个视频看完我,我脑海里就只有一句话:好想被神里小姐踩在脚下啊。请问我是看了一期假的AI学习视频吗🤣

  • @ZechWu
    @ZechWu Před měsícem +4

    聽到一半好像快懂了,聽到最後全矇了😂

    • @user-vh1xn4fx5y
      @user-vh1xn4fx5y Před měsícem +1

      可以先学语言模型演算法 会更好懂

    • @user-yf6vm4rz5g
      @user-yf6vm4rz5g Před měsícem

      结尾这里我没太听明白。。。就是词袋编码和向量相似度这里😂😂

    • @TheLucky368368
      @TheLucky368368 Před 11 dny

      ​@@user-yf6vm4rz5g ​ @user-yf6vm4rz5g ​ 詞袋編碼是為了解決每個字的位置都用向量表達,導致訊息密度低還有計算困難的問題。
      詞袋編碼捨棄用位置作為向量的訊息紀錄方式,而是計算每一個token在句子中出現的次數,增加訊息密度的同時還能解決計算困難的問題。
      訊息密度要想像一下,如果我有一篇文章,裡面有十萬個「我喜歡貓」的句子,那位置向量的維度就會是4*10萬,就是40萬個維度。但改用詞袋編碼的話,向量維度直接縮減至4個維度,若以token計算更可能因為「喜歡」被視為一個token而把詞袋縮減至3個維度。考慮最極端的情況,即便一篇文章中的字跟標點符號完全不重複,使用詞袋編碼的維度也絕對小於等於使用位置向量的維度。
      由前述可以知道,詞袋編碼的目的是為了縮減維度,除了提升訊息密度外,同時也能減少計算難度,因為如果向量維度太高,矩陣乘法會超級慢,因為矩陣乘法的計算速度以指數級成長。
      也不能只單看詞袋編碼,要跟n-gram一起看才會懂,如果只有詞袋,那麼「我吃了漢堡」跟「漢堡吃了我」會因為token數量一致而使模型誤判成兩個句子是等價的,因為token數量一致,所以需要有n-gram這個滑塊(sliding window)一次滑過n個token來確定token的先後順序。
      再來說說向量相似度,這是一種評估兩個向量相不相似的方式,影片中的用途比較像是評估兩個句子的相似程度。
      舉例來說,我們判斷任意兩個人相不相似可以透過選定某幾項指標來判定,像是身高、體重與年齡等。把兩個人的身高、體重與年齡取差值後相加,數值小的代表兩個人相似。
      向量也是一樣的,需要有幾個指標才能判斷任意兩個向量的相似程度,像是可以選擇向量的長度與兩向量夾角作為判斷相似度的依據。
      簡單的幾何想像是,在空間中有兩條具有指向性的直線,判斷兩條直線相不相似只要根據他們的長度跟夾角就可以了,像是可以定義長度差距越小、夾角越小代表兩向量的相似程度越高。
      BTW,有興趣的話可以去看看線性代數中的向量空間與內積空間,這兩部分很完整的定義了什麼是向量的長度與夾角,因為只要符合規範就可以形成空間,所以長度與夾角不是只有唯一一種計算方式。

  • @tonyqin6737
    @tonyqin6737 Před 29 dny

    第三集什么时候出来?

  • @cashbbq5064
    @cashbbq5064 Před měsícem

    認真聽完後學到了,你是那個誰誰誰的狗。😂我的學習能力趨近於零⋯⋯

  • @user-uc2hh9hi9i
    @user-uc2hh9hi9i Před 25 dny

    意思人类语言对于计算机来说是狗叫😂

  • @user-tc3gj9hh9z
    @user-tc3gj9hh9z Před měsícem

    不知道是不是我的耳機問題,一直感覺背後有回音像是待在一個空房間的角落講話一樣

  • @user-cd2pt8hw5v
    @user-cd2pt8hw5v Před měsícem

    大模型不适合个体,你要是能开发一个框架,教AI怎么玩游戏,我觉得更有钱景~

  • @justinmoh_
    @justinmoh_ Před měsícem

    啊,下一集不会是 GPT5 都已经出了吧

  • @user-we1ph2dw2o
    @user-we1ph2dw2o Před měsícem

    桌子和房间一样宽,你是怎么进去的?

  • @Yiliu
    @Yiliu Před měsícem +1

    实在不行,你就割我一波儿吧,199换你做视频有点儿压力😂

  • @lyeeonardolll2672
    @lyeeonardolll2672 Před 18 dny

    什么时候有3啊,急需,老板要我给他解释LLM

  • @fff-zg1kr
    @fff-zg1kr Před měsícem

    上了一堂免費的課

  • @cxpjamescxp
    @cxpjamescxp Před měsícem

    这期的麦克风是不是有点问题

  • @MrCoffeerify
    @MrCoffeerify Před měsícem

    还是这学习高清呀

  • @hongjic
    @hongjic Před měsícem

    深入浅出,膜

  • @jerryjerry666
    @jerryjerry666 Před měsícem

    接下来就是word2vec了

  • @user-no3et7cy5o
    @user-no3et7cy5o Před měsícem +1

    居然不让我坐,就因为我不好看

  • @yougikou
    @yougikou Před měsícem

    岂不是中文用单个字做训练的话,就没有子词的优势了。因为中文是依赖部首比较大的语言啊

  • @feifeishuishui
    @feifeishuishui Před měsícem

    13:55 n-gram 这个地方没看懂,”我是“ 或者“是神里绫华”像 这个两个在自然语言里不一定经常出现的向量怎么做到简单地用第一位和第二位的1 来表示的,

    • @sy-ej7ms
      @sy-ej7ms Před měsícem

      編碼把(我+是)這兩個變成一組 表示為1 (是+神里)也表示為1 當出現(神里+是)(狗+是)這種組合時就會是0

    • @feifeishuishui
      @feifeishuishui Před měsícem

      @@sy-ej7ms 这个理解,但是要让电脑知道这类组合每一种分别是什么意思,你才能用1或者0来替代。那你得要有个多大的词库来装这么多组合

    • @sy-ej7ms
      @sy-ej7ms Před měsícem

      ​@@feifeishuishui 不需要新的詞庫兩個一組是人為定義的,也可以三個一組,額外再多發出一段位置編碼,有文字編碼跟位置編碼,而位置編碼是不用詞庫的,必須同時符合兩種編碼才是正確輸出

    • @feifeishuishui
      @feifeishuishui Před měsícem

      @@sy-ej7ms 有道理,学习了

    • @meowalien4160
      @meowalien4160 Před měsícem

      @@feifeishuishui Term frequency (TF)

  • @weichen6451
    @weichen6451 Před měsícem

    本期目标:我是狗

  • @duanlang119
    @duanlang119 Před měsícem

    答辩啥意思

    • @bearfish1999
      @bearfish1999 Před měsícem +1

      依託答辯

    • @weihua44
      @weihua44 Před měsícem

      @@bearfish1999我说我孩子怎么最近总在说拉答辩😅

    • @TimCook-mh6bt
      @TimCook-mh6bt Před měsícem

      就是大便😂

    • @PIKA_Ox1
      @PIKA_Ox1 Před měsícem

      我最近要在教授面前答辯 論文了,有什麼要注意的嗎

  • @muyuanliu3175
    @muyuanliu3175 Před měsícem

    这个学习速度实在是不能算快

  • @user-zv6nm6zw5t
    @user-zv6nm6zw5t Před měsícem

    汪汪

  • @leonz2484
    @leonz2484 Před měsícem

    好像只是了解性知识,本人比较愚钝没有看出更深一层的玄机。

  • @syr1145
    @syr1145 Před měsícem

    看完了,恩,玩原神去

  • @lyz3581
    @lyz3581 Před měsícem

    我是女友的狗

  • @Jack-Y-J
    @Jack-Y-J Před měsícem +1

    我的学习总结:你想被神里绫华踩在脚下。 你是LSP