GPT-4o 背後可能的語音技術猜測

Sdílet
Vložit
  • čas přidán 18. 05. 2024
  • 投影片:drive.google.com/file/d/19bx4...
    語音版本語言模型相關論文蒐集:github.com/ga642381/speech-tr...
    25:40 勘誤,應該為 2500 倍,語音和文字的差異真的好大
    看這部影片前可以先複習以下內容:
    語言模型訓練三部曲
    1. Pre-train: • 【生成式AI導論 2024】第6講:大型語言...
    2. Fine-tune: • 【生成式AI導論 2024】第7講:大型語言...
    3. RLHF: • 【生成式AI導論 2024】第8講:大型語言...
    生成策略: • 【生成式AI導論 2024】第15講:為什麼...
  • Věda a technologie

Komentáře • 81

  • @yi-chengwu3274
    @yi-chengwu3274 Před měsícem +77

    我的天啊看看現在幾點了 都三點了 該上課了

  • @aser8591
    @aser8591 Před měsícem +72

    誰會想要在半夜三點研究AI啊
    好棒 三點了

  • @Sam-go6uf
    @Sam-go6uf Před měsícem +37

    半夜3點就是要上課阿

  • @wedxzass
    @wedxzass Před měsícem +5

    老師太愛AI了,一大早起來就看到有新影片,謝謝老師~~

  • @xygen9527
    @xygen9527 Před měsícem +7

    感覺這堂課過不久 老師的聲音就會被4o取代了

  • @banthailand
    @banthailand Před měsícem +6

    追老師的生成式Al講座,像追劇,感恩!前天還在想,老師什麼時後講ChatGPT-4o,現在就等到了!很多年前,我們都認為機器人不會有情感,但現在看了ChatGPT-4o的表現,應該會讓很多人改變觀點了,情感是在聽覺中的,思考則包含在視覺中,語言意思感則包含在"口說"中,這是人類的特性!Ai可以做到了

  • @franklee6588
    @franklee6588 Před měsícem +5

    把AI影片追成了连续剧,感谢老师!

  • @Dodomiaolegemi
    @Dodomiaolegemi Před měsícem +1

    非常棒的讲解视频!完全跟上时代!非常感谢老师!

  • @pkwanga
    @pkwanga Před měsícem +2

    謝謝老師,雖然是猜測,但覺得很有道理。 期待gpt-4o技術文件

  • @user-nn8vb4gp4f
    @user-nn8vb4gp4f Před měsícem

    謝謝老師~要早點休息😊😊😊

  • @user-zr4bh5kj4e
    @user-zr4bh5kj4e Před měsícem

    听、说、看分离讲解得很清晰,谢谢老师

  • @user-px7qb9lh7s
    @user-px7qb9lh7s Před 29 dny

    謝謝李老師用心講解,這樣再去看paper,就好容易吸收了。

  • @teng-kueihsu71
    @teng-kueihsu71 Před měsícem +9

    矽谷這邊剛好看影片配午餐😂

  • @tsajm6bh
    @tsajm6bh Před měsícem +3

    太好了, 很久沒看到老師對新技術的分析了, 希望以後除了基本理論的內容,也更新多一些新論文解讀和新技術的分析。現在ai的發展太快了。

  • @wuhaipeng
    @wuhaipeng Před měsícem

    非常棒的讲解!

  • @c2c246
    @c2c246 Před měsícem

    謝謝老師,在下立刻開始上課!

  • @wayhi3308
    @wayhi3308 Před měsícem

    分析很有道理,确实有洞察力

  • @user-jv1yy5bn3p
    @user-jv1yy5bn3p Před měsícem +1

    感謝老師非常時事的整理GPT4o的內容並講解背後可能的技術內容😍😍😍

  • @BruceChouTW
    @BruceChouTW Před měsícem +7

    最愛這種拆解產品技術的內容,比論文解讀更有趣

  • @akingtoy
    @akingtoy Před měsícem

    感謝老師

  • @zy5522
    @zy5522 Před měsícem

    謝謝老師!!

  • @user-xx9wi6wh6l
    @user-xx9wi6wh6l Před měsícem +8

    对于音色 (GPT说话的声音), 我有一点想法:
    1. 音色被encoder忽略了, 那么音色就是由decoder来决定的, GPT的训练阶段不需要考虑音色. (传统的ASR-Text-TTS这个里面, text就是没有包含音色信息的)
    2. 音色也可能被encoder编码了, 这样子就很有意思了, 可能在prompt里, 就能指定gpt, 请用什么样的声音和我说话.
    还是希望能快点用到gpt4o, 体验一下

    • @louis-dieudonne5941
      @louis-dieudonne5941 Před měsícem

      咦,我記得OpenAI目前展示的Demo裡面好像就有展示可以透過要求他的說話聲音不同來讓GPT發出不一樣的聲音,有一段演示裡面就可以模仿機器人的聲音。我倒覺得GPT不知道能不能「聽懂音調」這很有趣,換言之他會不會有音感?

  • @chakery3
    @chakery3 Před měsícem

    我又來學習了!

  • @forestren1525
    @forestren1525 Před měsícem +2

    有背景音樂🎶,啊,原來是這樣,可能是直接音訊訓練出來的,原來可能是這樣。。。太有趣了

  • @nanakaka7
    @nanakaka7 Před měsícem +2

    21:22 GPT-4o自帶BGM 讚嘆老師聽好細阿!

  • @zzzjohnpaper
    @zzzjohnpaper Před měsícem

    謝謝老師

  • @YetEthanOnly
    @YetEthanOnly Před měsícem +5

    額外模組才是聰明人幹的事情😂

  • @user-gh2bl7ly4y
    @user-gh2bl7ly4y Před měsícem

    太棒了

  • @hct0204
    @hct0204 Před měsícem

    感謝您

  • @willy7703
    @willy7703 Před měsícem +2

    我10幾年讀大學的時候
    有想過模型可以改良得更好
    但我還沒想過 10年左右的時間
    AI可以發展到這種高強度...

  • @tony10130
    @tony10130 Před měsícem

    太香了

  • @jameschen1498
    @jameschen1498 Před měsícem +1

    Follow老師頻道 有種追劇的感覺

  • @Natural_Motion
    @Natural_Motion Před 20 dny

    谢谢湾湾的李老师

  • @petriowu
    @petriowu Před měsícem

    好酷

  • @janson7463
    @janson7463 Před měsícem

    可以先訓練一個理解音樂與歌曲的模型,使之分離情境與歌詞。之後再分別處理個別的資訊,這樣也算是一個單一模型。包含多模態行為與解構。同理可用於更多的模態,但重點是訊號輸入的初期,利用一個大模型做分離,而不再利用特殊目的單純模型。與之對稱的生成是輸出,收到來自於多個模態的結果時,有一個預先處理語調資料來源,找到最接近的幾個候選者,再開始生成。因此不需要即時混成情緒與語調。有點類似歌曲生成。

  • @jack1796
    @jack1796 Před měsícem +4

    除了看前面的课还得补弗利莲 😅

  • @tommyyu2063
    @tommyyu2063 Před měsícem

    就像電影雲端情人
    我們離這個以前只出現在想像中和電影裡的未來 越來越近了

  • @mengni4426
    @mengni4426 Před měsícem

    13:08 这里用向量化的方式来解释会更准确。所有文字,语音,图像,乃至视频最终应该都会放到一个latency space里面去训练。再decode成各自的编码。

  • @bubble996
    @bubble996 Před měsícem +1

    好棒ㄛ 可以ㄔ美味蟹堡配影片 賺爛了😍

  • @zhasilo
    @zhasilo Před měsícem +22

    不在大學了,還是要上早八,不對,是早三。感謝李老師。

  • @mengyuge3369
    @mengyuge3369 Před měsícem

    谢谢李老师

  • @user-cr3vk4lq6y
    @user-cr3vk4lq6y Před měsícem +2

    太狠了 還好還沒睡

  • @chinawalk
    @chinawalk Před měsícem

    情绪,说话人识别,语气,都是可以识别。只是需要很强的算力才能很快很快。所以,算力足够强,那速度就足够快。就能块到 gpt4o的样子。

  • @WIZARD955236
    @WIZARD955236 Před měsícem +1

    該要放超級感謝了吧

  • @Hara_GameTW
    @Hara_GameTW Před měsícem

    配個早餐剛剛好❤

  • @derekchang1569
    @derekchang1569 Před měsícem +3

    聽君一席話,如讀十年書

  • @user-tj1pl5tg5e
    @user-tj1pl5tg5e Před měsícem

  • @Ethan76620
    @Ethan76620 Před měsícem

    ❤❤

  • @skyacaniadev2229
    @skyacaniadev2229 Před měsícem

    做语音的要先转 spectrogram 然后用 CNN 加 transformer 吗?

  • @sdyeung
    @sdyeung Před měsícem +1

    還有一個問題待解是
    這個 voice chat 的 gpt 4o 跟 prompt based 的gpt 4o 是不是同一個模型

  • @jiayu7428
    @jiayu7428 Před měsícem

    老师这是连夜爆肝啊😂❤❤

  • @kylehuang9035
    @kylehuang9035 Před měsícem +1

    发现一个小错误。 Llama3 pretrain 用了15 Trillion , 是6 billion的 2500倍,而不是250

    • @HungyiLeeNTU
      @HungyiLeeNTU  Před 25 dny

      感謝您的指正,確實是差了 2500 倍沒錯

  • @luhu9452
    @luhu9452 Před měsícem

    老师分析下gpt4o的视觉理解

  • @user-vi5nu6qo4w
    @user-vi5nu6qo4w Před měsícem

    李老师不考虑下入住B站么

  • @fanchuankang1228
    @fanchuankang1228 Před měsícem

    🙇‍

  • @cucumbercheng5692
    @cucumbercheng5692 Před měsícem +1

  • @user-mm7ot5zq2c
    @user-mm7ot5zq2c Před měsícem

    我記得OpenAI有提到GPT-4o 主要是省略了原本都要經過文本的轉換,GPT-4o直接把語音做成LLM,故而能大幅提高回應效率,聲音情緒辨識並非GPT-4o的主要改良關鍵,這次老師似乎搞錯方向

  • @v86861062
    @v86861062 Před měsícem

    好有趣(笑)

  • @tsajm6bh
    @tsajm6bh Před 28 dny

    剛剛昨晚才看了, 但是如果只是文字+語音token作為輸入輸出的話,沒法解釋它的反應速度。在open ai的演示中, 它幾乎是即時回應, 也能在被打斷中, 即時作出正確的反應。

  • @user-uh4gm8ls8n
    @user-uh4gm8ls8n Před měsícem

    現在連官方技術報告都沒有了不過也可以理解

  • @user-cl8gb6ud9r
    @user-cl8gb6ud9r Před měsícem

    其實在open ai的gpt-4語音交談時就有求同感受了,至少跟google 小姐不同,希望之後的導航google 小姐回應可以更人性一點!

    • @sdyeung
      @sdyeung Před měsícem

      我沒有用過現時openai 的語音交談
      現時可否打斷gpt 說話?
      Update: 是可以手動打斷的

    • @user-mm7ot5zq2c
      @user-mm7ot5zq2c Před měsícem

      @@sdyeung AI在回應時,本來就允許再輸入新的內容

    • @louis-dieudonne5941
      @louis-dieudonne5941 Před měsícem

      成本太高了

    • @tsajm6bh
      @tsajm6bh Před 28 dny

      @@user-mm7ot5zq2c 不一樣吧, 之以的gpt打斷了就真是沒有了。

  • @jaybestemployee
    @jaybestemployee Před měsícem

    其實gpt4都經常沒有足夠邏輯能力,這次4o也沒有特別的期待。這次多模態也只是增加了輸入輸出的方式(語音,視力), 但是如果還是偶爾突發沒邏輯,幻想,失憶什麼的。那只會是一個不知累的尬聊專家,但正經事/長期是沒什麼重要價值的。不過要是能做一只不用吃東西,也不會掉毛,也可以開關(你不想它晚上亂叫) 的AI鸚鵡寵物,或許也不錯

  • @user-sw3vd5ks2n
    @user-sw3vd5ks2n Před měsícem

    看,听,说 结合起来用在机器人上想起来起来有点可怕啊

  • @jungjung7996
    @jungjung7996 Před měsícem

    好小聲

  • @looprand3965
    @looprand3965 Před měsícem +5

    作息破壞者

  • @chinawalk
    @chinawalk Před měsícem

    gpt 在说话的时候的背景音乐,其实是为了区分 gpt说话还是人类说话。这个方式非常好。因为gpt可能是全程录音。这样可以把自己说的话排除出去。

  • @richardwang1162
    @richardwang1162 Před měsícem

    我發現他好像不會唱歌🤣

  • @nameisroy1991
    @nameisroy1991 Před měsícem +2

    說不定是請幾千個印度人在後面回答問題

  • @user-xv4he4mt4x
    @user-xv4he4mt4x Před měsícem

    誰花時間聽你在那邊「猜測」?

  • @David-us2ud
    @David-us2ud Před měsícem

    老师没有去青岛东路?给您点个赞!

  • @feixiongluo4198
    @feixiongluo4198 Před měsícem

    突然觉得老师也好难,天天在猜OpenAI到底在做什么

  • @mspark6599
    @mspark6599 Před měsícem

  • @rail_hail6625
    @rail_hail6625 Před měsícem