【人工智能】大语言模型需要更好的视觉基础来理解含义 | 谢赛宁 | DiT作者 | 多模态语言模型的视觉缺陷 | 基于视觉搜索引导的多模态大模型 | GPT-4V | CLIP | SEAL

Best Partners TV

zhlédnutí 7 606

Přidat do
- Můj playlist
- Přehrát později
Sdílet

Sdílet

Vložit

Velikost videa:

Zobrazit ovladače přehrávání

Automatické přehrávání

Přehrát

čas přidán 23. 06. 2024
6 月 15 日，在智源大会的「多模态大模型」论坛上，纽约大学助理教授谢赛宁，从哲学的角度出发，分享了针对大语言时代的视觉表征研究。他和他的团队为我们带来了两篇最新的研究论文，分别从探索多模态大型语言模型的视觉缺陷、基于视觉搜索引导的多模态大模型，以及真实世界中的虚拟智能落地等方面，介绍了团队的最新工作。今天大飞想通过谢赛宁的分享，让我们一睹计算机视觉研究领域的最前沿研究成果。
原视频地址：event.baai.ac.cn/live/799 ,01:47:26开始
#人工智能 #computervision #multimodal #sainingxie

Komentáře • 21

@yanpingchen1484 Před 20 dny ⁺¹
讲的很好
@codingapi8073 Před měsícem ⁺⁵
大飞
你好，我是你的粉丝关注你的CZcams很长时间了，我也是一名程序员对AI技术也非常的关注。但是我非科班出身对很多基础的理论掌握的不好。不过我对AI始终有一个自己的理解，想与你讨论一下。
今天大模型通常都是通过网络上的数据信息训练而成的，无论模型的参数量大小其本质上都是一个固定死的算法模型。但是从我做为一个人类的角度来看，我始终认为AI的技术方向存在一些偏差。
我认为一个真正的智能体，他应该是基于自己的知识来回答问题，而不是基于参数来回答问题。目前的大模型在发展上存在一个tokens的上限限制问题，导致AI很难把足够长的信息吸收好，然后回答问题。但是我不认为需要研究设计可以容纳更长的tokens的神经网络来解决这个问题是最终的方向。以人类来举例，我认为每一个人类个体，都存在三个必要的信息，1是自己的知识图谱，2是自己的最大RAM，3是当前任务的计划内容。
自己的知识图谱，就是个人的知识认知，这些信息通常都是一些架构信息，并不是对所有知识的囊扩，就是关键知识节点于边的信息。
自己的RAM，就是同时可以处理信息的大小，我相信这个因为每个人的差异会有所不同，但并不是特别关键的影响因素。
当前任务的内容，当前任务可以是多个任务，但通常人类在处理任务的时候需要专注于某一个任务，这里就类似于CPU的任务切换的概念，我们可以将当前的任务挂起，然后再执行任务池中的下一个任务。
在人类的这个智能体下，我们的反响传播其实收敛的地方是知识的结合，就是说当我们把这个信息吸收以后，是会将这个信息存储到了自己的知识图谱中了，可能开始构建的知识图谱会存在错误，但随着后续遇到问题解决问题的过程，也会再不断的纠正自己的知识体系，所以在收敛的过程中，只要能够将信息链接到自己的知识图谱中就算完成收敛。
另外我认为人类在处理信息的时候使用的方法就是匹配，就是将当前的问题信息抽象（embedding），然后将抽象后的数据于自己的知识图谱像匹配，在匹配的过程中也会将知识图谱进行放大于缩小，总之会匹配到一个最相似的知识上，然后基于这个知识作为基础信息，在结合这个知识上的延伸信息，给出自己的答案或方案。所谓的答案就是结果，但是有些问题需要给出的不是答案而是方案，方案其实就是一个任务，需要进一步的验证任务给出最终的结果。
所以我认为真正的AI智能体，应该是研究如何构建知识图谱、然后收敛知识图谱、如何基于知识图谱去匹配问题的答案的过程。在这样的模式下当前的RAM是不需要太大的数据承载量的。这是我的一些浅薄的看法，当然我在这个问题上也有一些更深的思考，不知道您如何看待这个事情？
@bestpartners Před měsícem ⁺²
感谢关注和支持🙏知识图谱也是一个很大的研究方向，我个人觉得有它的优点，也有它的缺点，并不能解决所有问题，找时间可以做一期视频聊聊
@corgirun7892 Před měsícem ⁺⁴
谢赛宁还真是非常善于搞个大新闻
@bestpartners Před měsícem ⁺²
憋大招😁
@yuli.kamakura Před měsícem ⁺²
1. 4v 4o 这些更多目的是降低成本，节省出来更多的卡做 training。在 us，3.2w张是第一梯队的门槛，而且决定以后。
2. GPT-4V 多模态模型，展示视觉分析方面的【潜力】，处理不了复杂视觉任务
@randomchineseguy6462 Před 29 dny ⁺²
这就是之前Ilya分享的那篇柏拉图表征的结论吧
@stevenwxjie Před měsícem ⁺²
snn是王道。
@sujasper7881 Před měsícem ⁺²
抢个沙发
@bestpartners Před měsícem ⁺³
感谢沙发
@jiangzhuo3213 Před měsícem ⁺³
一个模型有多模态能力真的很重要吗？如果人类是没有视觉的物种，有可能进化到统治这个星球吗？
@sujasper7881 Před měsícem ⁺⁴
我觉得人类要是没有视觉的话，能不能进化出智能都是未知数
@YetEthanOnly Před měsícem ⁺²
一堆海倫凱勒還得先學會語言與識字能力才能展現智能
@DUKE3DHARN Před měsícem ⁺²
Yann Lecun 的一個觀點是如果只用語言，人接受的訊息量很有限。同理可推，只用語言訓練大模型，是給大模型遠低於人所能接受的資訊量。所以要讓大模型盡可能地多接受資訊，多模態是合理的方向
@wade04035017 Před 28 dny ⁺¹
Her 电影是openAI团队的红宝书，无论如何要一个个场景实现
@junyanggao4723 Před měsícem ⁺²
视频用MacBook的摄像头录制的？升级一下吧哈哈哈
@bestpartners Před měsícem ⁺³
用的 iphone 后摄，不过 iphone 确实需要换了，等出 16 吧
@Toyota3014 Před měsícem ⁺²
如果视角ai应用于战争前途无量
@user-kf4md5hq3x Před měsícem ⁺¹
已经开始应用了。
@user-so3mm5fb8t Před 29 dny ⁺¹
最甲拍當
@randomchineseguy6462 Před 29 dny ⁺²
这就是之前Ilya分享的那篇柏拉图表征的结论吧

Další v pořadí

Automatické přehrávání

【人工智能】GPT-5还要多久？AI一年半后可达人类博士水平 | Mira Murati | OpenAI CTO | 达特茅斯学院对谈 | AI自主行动 | AI安全 | 版权争议和虚假信息