【生成式AI導論 2024】第17講：有關影像的生成式AI (上) - AI 如何產生圖片和影片 (Sora 背後可能用的原理)

80分鐘快速了解大型語言模型 (5:30 有咒術迴戰雷)

【生成式AI導論 2024】第18講：有關影像的生成式AI (下) - 快速導讀經典影像生成方法 (VAE, Flow, Diffusion, GAN) 以及與生成的影片互動

天使与小丑心灵感应#short #angel #clown

Giảm áp lực cho thắt lưng với mẹo này. #vungocson #drson #shorts

EVERYBODY DANCE NOW! 🕺😎🪩 | Triple Charm #Shorts

GPT-4o 背後可能的語音技術猜測

Hung-yi Lee

zhlédnutí 48 464

Přidat do
- Můj playlist
- Přehrát později
Sdílet

Sdílet

Vložit

Velikost videa:

Zobrazit ovladače přehrávání

Automatické přehrávání

Přehrát

čas přidán 18. 05. 2024
投影片：drive.google.com/file/d/19bx4...
語音版本語言模型相關論文蒐集：github.com/ga642381/speech-tr...
25:40 勘誤，應該為 2500 倍，語音和文字的差異真的好大
看這部影片前可以先複習以下內容：
語言模型訓練三部曲
1. Pre-train: • 【生成式AI導論 2024】第6講：大型語言...
2. Fine-tune: • 【生成式AI導論 2024】第7講：大型語言...
3. RLHF: • 【生成式AI導論 2024】第8講：大型語言...
生成策略： • 【生成式AI導論 2024】第15講：為什麼...
Věda a technologie

Komentáře • 81

@yi-chengwu3274 Před měsícem ⁺⁷⁷
我的天啊看看現在幾點了都三點了該上課了
@aser8591 Před měsícem ⁺⁷²
誰會想要在半夜三點研究AI啊
好棒三點了
@Sam-go6uf Před měsícem ⁺³⁷
半夜3點就是要上課阿
@wedxzass Před měsícem ⁺⁵
老師太愛AI了，一大早起來就看到有新影片，謝謝老師~~
@xygen9527 Před měsícem ⁺⁷
感覺這堂課過不久老師的聲音就會被4o取代了
@banthailand Před měsícem ⁺⁶
追老師的生成式Al講座，像追劇，感恩！前天還在想，老師什麼時後講ChatGPT-4o，現在就等到了！很多年前，我們都認為機器人不會有情感，但現在看了ChatGPT-4o的表現，應該會讓很多人改變觀點了，情感是在聽覺中的，思考則包含在視覺中，語言意思感則包含在＂口說＂中，這是人類的特性！Ai可以做到了
@franklee6588 Před měsícem ⁺⁵
把AI影片追成了连续剧，感谢老师！
@Dodomiaolegemi Před měsícem ⁺¹
非常棒的讲解视频！完全跟上时代！非常感谢老师！
@pkwanga Před měsícem ⁺²
謝謝老師，雖然是猜測，但覺得很有道理。期待gpt-4o技術文件
@user-nn8vb4gp4f Před měsícem
謝謝老師～要早點休息😊😊😊
@user-zr4bh5kj4e Před měsícem
听、说、看分离讲解得很清晰，谢谢老师
@user-px7qb9lh7s Před 29 dny
謝謝李老師用心講解，這樣再去看paper，就好容易吸收了。
@teng-kueihsu71 Před měsícem ⁺⁹
矽谷這邊剛好看影片配午餐😂
@tsajm6bh Před měsícem ⁺³
太好了, 很久沒看到老師對新技術的分析了, 希望以後除了基本理論的內容,也更新多一些新論文解讀和新技術的分析。現在ai的發展太快了。
@wuhaipeng Před měsícem
非常棒的讲解！
@c2c246 Před měsícem
謝謝老師，在下立刻開始上課!
@wayhi3308 Před měsícem
分析很有道理，确实有洞察力
@user-jv1yy5bn3p Před měsícem ⁺¹
感謝老師非常時事的整理GPT4o的內容並講解背後可能的技術內容😍😍😍
@BruceChouTW Před měsícem ⁺⁷
最愛這種拆解產品技術的內容，比論文解讀更有趣
@akingtoy Před měsícem
感謝老師
@zy5522 Před měsícem
謝謝老師!!
@user-xx9wi6wh6l Před měsícem ⁺⁸
对于音色 (GPT说话的声音), 我有一点想法:
1. 音色被encoder忽略了, 那么音色就是由decoder来决定的, GPT的训练阶段不需要考虑音色. (传统的ASR-Text-TTS这个里面, text就是没有包含音色信息的)
2. 音色也可能被encoder编码了, 这样子就很有意思了, 可能在prompt里, 就能指定gpt, 请用什么样的声音和我说话.
还是希望能快点用到gpt4o, 体验一下
@louis-dieudonne5941 Před měsícem
咦，我記得OpenAI目前展示的Demo裡面好像就有展示可以透過要求他的說話聲音不同來讓GPT發出不一樣的聲音，有一段演示裡面就可以模仿機器人的聲音。我倒覺得GPT不知道能不能「聽懂音調」這很有趣，換言之他會不會有音感？
@chakery3 Před měsícem
我又來學習了！
@forestren1525 Před měsícem ⁺²
有背景音樂🎶，啊，原來是這樣，可能是直接音訊訓練出來的，原來可能是這樣。。。太有趣了
@nanakaka7 Před měsícem ⁺²
21:22 GPT-4o自帶BGM 讚嘆老師聽好細阿!
@zzzjohnpaper Před měsícem
謝謝老師
@YetEthanOnly Před měsícem ⁺⁵
額外模組才是聰明人幹的事情😂
@user-gh2bl7ly4y Před měsícem
太棒了
@hct0204 Před měsícem
感謝您
@willy7703 Před měsícem ⁺²
我10幾年讀大學的時候
有想過模型可以改良得更好
但我還沒想過 10年左右的時間
AI可以發展到這種高強度...
@tony10130 Před měsícem
太香了
@jameschen1498 Před měsícem ⁺¹
Follow老師頻道有種追劇的感覺
@Natural_Motion Před 20 dny
谢谢湾湾的李老师
@petriowu Před měsícem
好酷
@janson7463 Před měsícem
可以先訓練一個理解音樂與歌曲的模型，使之分離情境與歌詞。之後再分別處理個別的資訊，這樣也算是一個單一模型。包含多模態行為與解構。同理可用於更多的模態，但重點是訊號輸入的初期，利用一個大模型做分離，而不再利用特殊目的單純模型。與之對稱的生成是輸出，收到來自於多個模態的結果時，有一個預先處理語調資料來源，找到最接近的幾個候選者，再開始生成。因此不需要即時混成情緒與語調。有點類似歌曲生成。
@jack1796 Před měsícem ⁺⁴
除了看前面的课还得补弗利莲 😅
@tommyyu2063 Před měsícem
就像電影雲端情人
我們離這個以前只出現在想像中和電影裡的未來越來越近了
@mengni4426 Před měsícem
13:08 这里用向量化的方式来解释会更准确。所有文字，语音，图像，乃至视频最终应该都会放到一个latency space里面去训练。再decode成各自的编码。
@bubble996 Před měsícem ⁺¹
好棒ㄛ可以ㄔ美味蟹堡配影片賺爛了😍
@zhasilo Před měsícem ⁺²²
不在大學了，還是要上早八，不對，是早三。感謝李老師。
@peasant12345 Před měsícem ⁺¹
我是晚三😂
@mengyuge3369 Před měsícem
谢谢李老师
@user-cr3vk4lq6y Před měsícem ⁺²
太狠了還好還沒睡
@chinawalk Před měsícem
情绪，说话人识别，语气，都是可以识别。只是需要很强的算力才能很快很快。所以，算力足够强，那速度就足够快。就能块到 gpt4o的样子。
@WIZARD955236 Před měsícem ⁺¹
該要放超級感謝了吧
@Hara_GameTW Před měsícem
配個早餐剛剛好❤
@derekchang1569 Před měsícem ⁺³
聽君一席話，如讀十年書
@user-tj1pl5tg5e Před měsícem
❤
@Ethan76620 Před měsícem
❤❤
@skyacaniadev2229 Před měsícem
做语音的要先转 spectrogram 然后用 CNN 加 transformer 吗？
@sdyeung Před měsícem ⁺¹
還有一個問題待解是
這個 voice chat 的 gpt 4o 跟 prompt based 的gpt 4o 是不是同一個模型
@jiayu7428 Před měsícem
老师这是连夜爆肝啊😂❤❤
@kylehuang9035 Před měsícem ⁺¹
发现一个小错误。 Llama3 pretrain 用了15 Trillion ，是6 billion的 2500倍，而不是250
@HungyiLeeNTU Před 25 dny
感謝您的指正，確實是差了 2500 倍沒錯
@luhu9452 Před měsícem
老师分析下gpt4o的视觉理解
@user-vi5nu6qo4w Před měsícem
李老师不考虑下入住B站么
@fanchuankang1228 Před měsícem
🙇‍
@cucumbercheng5692 Před měsícem ⁺¹
香
@user-mm7ot5zq2c Před měsícem
我記得OpenAI有提到GPT-4o 主要是省略了原本都要經過文本的轉換,GPT-4o直接把語音做成LLM,故而能大幅提高回應效率,聲音情緒辨識並非GPT-4o的主要改良關鍵,這次老師似乎搞錯方向
@Britas1030 Před měsícem ⁺¹
你有看完嗎
@v86861062 Před měsícem
好有趣(笑)
@tsajm6bh Před 28 dny
剛剛昨晚才看了, 但是如果只是文字+語音token作為輸入輸出的話,沒法解釋它的反應速度。在open ai的演示中, 它幾乎是即時回應, 也能在被打斷中, 即時作出正確的反應。
@user-uh4gm8ls8n Před měsícem
現在連官方技術報告都沒有了不過也可以理解
@user-cl8gb6ud9r Před měsícem
其實在open ai的gpt-4語音交談時就有求同感受了，至少跟google 小姐不同，希望之後的導航google 小姐回應可以更人性一點!
@sdyeung Před měsícem
我沒有用過現時openai 的語音交談
現時可否打斷gpt 說話？
Update: 是可以手動打斷的
@user-mm7ot5zq2c Před měsícem
@@sdyeung AI在回應時,本來就允許再輸入新的內容
@louis-dieudonne5941 Před měsícem
成本太高了
@tsajm6bh Před 28 dny
@@user-mm7ot5zq2c 不一樣吧, 之以的gpt打斷了就真是沒有了。
@jaybestemployee Před měsícem
其實gpt4都經常沒有足夠邏輯能力，這次4o也沒有特別的期待。這次多模態也只是增加了輸入輸出的方式(語音，視力), 但是如果還是偶爾突發沒邏輯，幻想，失憶什麼的。那只會是一個不知累的尬聊專家，但正經事/長期是沒什麼重要價值的。不過要是能做一只不用吃東西，也不會掉毛，也可以開關(你不想它晚上亂叫) 的AI鸚鵡寵物，或許也不錯
@user-sw3vd5ks2n Před měsícem
看，听，说结合起来用在机器人上想起来起来有点可怕啊
@jungjung7996 Před měsícem
好小聲
@looprand3965 Před měsícem ⁺⁵
作息破壞者
@chinawalk Před měsícem
gpt 在说话的时候的背景音乐，其实是为了区分 gpt说话还是人类说话。这个方式非常好。因为gpt可能是全程录音。这样可以把自己说的话排除出去。
@richardwang1162 Před měsícem
我發現他好像不會唱歌🤣
@nameisroy1991 Před měsícem ⁺²
說不定是請幾千個印度人在後面回答問題
@user-xv4he4mt4x Před měsícem
誰花時間聽你在那邊「猜測」？
@David-us2ud Před měsícem
老师没有去青岛东路？给您点个赞！
@feixiongluo4198 Před měsícem
突然觉得老师也好难，天天在猜OpenAI到底在做什么
@mspark6599 Před měsícem
❤
@rail_hail6625 Před měsícem
香

Další v pořadí

Automatické přehrávání

【生成式AI導論 2024】第17講：有關影像的生成式AI (上) - AI 如何產生圖片和影片 (Sora 背後可能用的原理)

【生成式AI導論 2024】第17講：有關影像的生成式AI (上) — AI 如何產生圖片和影片 (Sora 背後可能用的原理)

80分鐘快速了解大型語言模型 (5:30 有咒術迴戰雷)

80分鐘快速了解大型語言模型 (5:30 有咒術迴戰雷)

【生成式AI導論 2024】第18講：有關影像的生成式AI (下) - 快速導讀經典影像生成方法 (VAE, Flow, Diffusion, GAN) 以及與生成的影片互動

【生成式AI導論 2024】第18講：有關影像的生成式AI (下) — 快速導讀經典影像生成方法 (VAE, Flow, Diffusion, GAN) 以及與生成的影片互動

天使与小丑心灵感应#short #angel #clown

天使与小丑心灵感应#short #angel #clown

Giảm áp lực cho thắt lưng với mẹo này. #vungocson #drson #shorts

Giảm áp lực cho thắt lưng với mẹo này. #vungocson #drson #shorts

EVERYBODY DANCE NOW! 🕺😎🪩 | Triple Charm #Shorts

EVERYBODY DANCE NOW! 🕺😎🪩 | Triple Charm #Shorts

Minecraft Okno v REÁLNÉM ŽIVOTĚ 😳 #shorts

Minecraft Okno v REÁLNÉM ŽIVOTĚ 😳 #shorts

26 Incredible Use Cases for the New GPT-4o

26 Incredible Use Cases for the New GPT-4o

【ChatGPT】GPT-4o應用解說｜AI即時翻譯、語言學習、解題引導、理解情感、最強助手

【ChatGPT】GPT-4o應用解說｜AI即時翻譯、語言學習、解題引導、理解情感、最強助手

EP40 - 深入瞭解GPT-4o的突破以及Google一年一度的開發者大會！

EP40 - 深入瞭解GPT-4o的突破以及Google一年一度的開發者大會！

沒環境講英文？如何跟 ChatGPT 對話，快速加強口說

沒環境講英文？如何跟 ChatGPT 對話，快速加強口說

【漫士科普】GPT是如何工作的？为什么要学习接下一个词？#gpt #chatgpt #openai

【漫士科普】GPT是如何工作的？为什么要学习接下一个词？#gpt #chatgpt #openai

知識量超大！一次看懂伊朗：以色列的舊怨新仇，從文明古國到火藥桶，一個複雜且冒險的國家… | 床台

知識量超大！一次看懂伊朗：以色列的舊怨新仇，從文明古國到火藥桶，一個複雜且冒險的國家… | 床台

【生成式AI導論 2024】第1講：生成式AI是什麼？

【生成式AI導論 2024】第1講：生成式AI是什麼？

【機器學習2021】Transformer (上)

【機器學習2021】Transformer (上)

Excel 已死？有了 GPT-4o 从此不愁 Excel 公式和数据透视表！免费、强悍的高级数据分析 | 回到Axton

Excel 已死？有了 GPT-4o 从此不愁 Excel 公式和数据透视表！免费、强悍的高级数据分析 | 回到Axton

Nový #iPhone16 možná nebude mít žádná fyzická tlačítka! Dokážeš si to představit?

Nový #iPhone16 možná nebude mít žádná fyzická tlačítka! Dokážeš si to představit?

How charged your battery?

How charged your battery?

First repair of the day 📱

First repair of the day 📱

Product Link in Bio ( # 1636 ) @MaviGadgets ✅ Smart Universal Magnetic Car Phone Holder

Product Link in Bio ( # 1636 ) @MaviGadgets ✅ Smart Universal Magnetic Car Phone Holder

Урна с айфонами!

Урна с айфонами!

This Magic Keyboard Lost It's Magic... #Shorts

This Magic Keyboard Lost It's Magic... #Shorts

Apple Watch with a CAMERA?! 😳

Apple Watch with a CAMERA?! 😳

Hisense Official Flagship Store Hisense is the champion What is going on?

Hisense Official Flagship Store Hisense is the champion What is going on?