Velikost videa: 1280 X 720853 X 480640 X 360
Zobrazit ovladače přehrávání
Automatické přehrávání
Přehrát
后续还想看哪些AI大模型的测评,欢迎留言呀。😀
我用到现在kimi 在中文的生成上比Claude 和gpt 4都好
@@user-ss3gt2co5g on the way
@@yarralink6138 kimi我也简单试了下,有点东西
通义千问,用的较多。还有kimi
请东东老师比较一下文心一言与智谱清言、通义千问、百川、商汤商量和讯飞星火。 CPT4与cloude和Mistral。 文生图各模型的比较,音乐模型的比较!
我也做过一些对比,所以很能体会影片的内容,节目做得很用心很好,辛苦了
感谢东东,踏实、认真、逻辑性强、可信度高,我看了你至少十个影片,对准备做CZcams 主的我帮助很大,学到了很多,感谢你!
加油 期待你的视频
佩服佩服,感謝你的認真和分享,非常值得一看再看😊
你的视频质量很高,看你的视频真的能学到知识👍
东东的内容依然扎实。爆赞❤
文心一言解决不了“敏感词”问题,不会成功的。
沒錯,但是身在強國裡面的人又怎敢戳破神話?
你用英文问chatgpt敏感问题试试
文心一言还存在训练数据不准的问题,人工智能训练数据首先需要准确的raw data。而百度上的答案全是错的。
@@MarcBester 虽然chatGPT过滤掉了一些敏感问题,但是它训练的数据则是全面的。而百度文心一言训练数据恐怕都做不到这点。
@@MarcBester你是说不能问色情内容吗?
“一言”是“一言难尽”的意思,东东哥真有才!
一言还有另一个意思。但是某当很多年前解释为闽主集中制。
這些年百度嘗試進入很多領域,但堅持下來的只有網盤一項
笑喷,还有贴吧
垃圾網盤 10kb/s
难道不是搜索关键词出来的大量广告?
@@NM4L-貼吧不算這些年了,有20年吧了吧,僅次於搜索的起家業務了。
而且下载特别慢 让你花钱开会员😂
这个视频认真看完了,做的很不错,加油
CZcams 上最好的知识博主之一!👍
感谢认可
非常棒的影片,学到很多东西。👍
学习到了,赞👍
很详细,在短视频泛滥当下,能坚持一丝不苟的做长视频真的不容易❤
强,很有启发,感谢东东
您的视频确实很优质,谢谢您🌹,让我受益匪浅
真不错的测评,很棒!
你的片質量很高
专业+风趣,最佳老师莫过于东东老师❤
分析的到位
你,确实是个知识博主。看你的视频,收益良多。谢谢!
东东哥,被你上次的视频推坑,直接导致了我从此进入“得到”的深坑,又花钱又花时间,立即直接地成为了深度用户。。。。。。。。
到友你好
看完了,确实chatgpt不是强了一点半点。第一次看博主视频,很不错都是干货,想请教下,之前没有接触过chatgpt,怎么上手,有没有一套从下载到使用的保姆视频?
东哥好,视频41:13处柱状图第一项标注错了,应该是"文本质量",标注成"文档处理"
没有测到大模型的本质。都是在搜索引擎思维使用大模型。你用解决问题的方式去试试,百度还是停留在搜索引擎阶段,gpt就是一个能干活的专家型员工。比如你发一个csv文档给它,让它帮你去干一些事情,分析数据,提出问题,解决问题。这些百度就干不了,说白了一个是ai,一个还是个搜索引擎知识库
感谢分享👍,下了很多功夫
推理和數學有個建議,我發現有些大模型不知道是怎麼調的,讓他不要列出推理過程直接給答案,有些模型回答問題智商會直線下降,但有的大模型幾乎不降。
对比得很好👌
即生动,又有趣,关注。
百度為什麼可以與GPT相比,根本不是一個水準的產品
你問問chat,川菜回鍋肉的製作方法,然後你看看它的製作能吃嗎?
博主,这个视频我可转发到国内平台吗
看你的视频觉得很享受,也能学习到东西。👍
感谢分享
谢谢分享!
喝汽水的那个题目我用中文发给gpt4,他始终回答是38瓶。都不回答39,更不用考虑借一个瓶子,提醒了它好多遍才做到39。but如果同样的问题用英文问AI,会直接正确。测试了Gemini,Claude,gpt,Copilot都是38,所以中文语境还有待加强
我在工作中选型大模型时也就工作中的场景对大模型做过比较,比较了chatgpt3.5,文心一言,百川,最后发现文心一言是最糟糕的,chatgpt3.5和百川一样好
博主,你好,请问你的视频中人物是数字人吗?我注意到手部动作有一些是循环的
不是,那是我动作太单一了hhh
@@Tan_Dongdong 他是故意说你动作单调来的……哈哈哈哈
文心一言反击了
- 00:02 杭州西湖龙井村十里琅珰介绍 - 描述风景和请求作诗- 00:23 比较文心一言4.0和GPT4.0 - 介绍GPT4.0和文心一言4.0的发布时间和背景- 01:12 测试项目介绍 - 列出将比较的7项能力:文本质量、联网、推理计算、文生图、图片识别、翻译、文档处理- 01:28 文本质量测试 - 介绍文本质量测试的内容,包括古诗词接龙比赛和问答问题- 02:02 文心一言在古诗词接龙中的表现 - 描述文心一言在第十轮开始不遵守规则- 02言和GPT在文本质量上的表现 - GPT在古诗词接龙中的坚持和准确性- 03:38 有标准答案的问题测试 - 提出一系列有标准答案的问题进行测试- 04:05 更难的问题测试 - 提出需要分析和推理的"what if"问题- 05:47 元问题测试 - 测试大模型对于"what questions"的回答能力- 07:04 大模型相关产业链问题 - 询问大模型相关产业链的知识- 07:26 数据来源和供应商问题 - 探讨大模型的数据来源和供应商- 07:56 文心一言的文本质量评价 - 评价文心一言的文本回答质量- 08:16 直接输出内容的能力测试 - 测试大模型创作诗歌、文案等能力- 09:23 吟诗环节 - AI吟诵创作的诗歌- 09:38 研究报告框架任务 - 要求生成研究报告的框架提纲- 10:30 对比ChatGPT和文心一言的研究报告提纲 - 分析两个模型提供的提纲结构和内容- 11:28 How层面问题测试 - 测试解决方案和有效路径的提供能力- 13:29 Why层面问题测试 - 测试分析推理和整合输出答案的能力- 14:25 李子柒CZcams订阅量分析 - 分析李子柒视频内容受欢迎的原因- 17:17 提问能力的重要性和提升方法 - 探讨AI时代提问能力的重要性和提升方法- 21:02 文档处理能力测试 - 测试从PDF文档中提取信息的能力- 23:06 综合评价文心一言 - 对文心一言的各项能力进行综合评价- 23:23 联网能力测试 - 测试模型的联网搜索和信息获取能力- 24:39 推理能力测试 - 通过逻辑问题测试模型的推理能力- 30:02 文生图能力测试 - 测试模型生成图像的能力- 34:07 图片识别能力测试 - 测试模型识别和描述图片内容的能力- 37:43 翻译能力测试 - 测试模型的翻译能力- 38:44 文档处理能力测试 - 测试模型处理PDF文档和提取信息的能力- 41:11 代码能力评价 - 评价模型的代码处理能力- 41:14 综合对比总结 - 总结文心一言和GPT4.0的综合能力对比
想看看 Copilot与Gemini之间的差别。
文心一言夠了 拿來做AI網路審查員 夠用了 😂
如今直上银河去 何使人间路再通。虽然不太对仗 意境还是比较可以。
能测试copilot pro吗
国产好像就阿里云灵积,零一,月之暗面可以很方便地在第三方chat应用里调用。
大模型除了模型本身調整以外,最重要還是訓練的資料,任何系統都是garbage in garbage out所以GPT為何先是在美國起來,因為西方網路世界有效資料還是比較多,各種名校免費公開課、github、stack overflow...
东东出品,必是精品
笔芯
GPT的文档理解能力很强,难怪能产生这么好的回答。
国内互联网公司全都是看国外有成熟的商业模式才会动,之前压根没有技术储备…
Gpt 可以坚挺很久的😂我测试过一周的上下文理解~就是一个项目~真的不错。过很久点回去以前的对话,又可以接着下去了
它可以一直记住,只要你不删除。
@@oo-re6wo 是的~😁
AI何時能寫出一部完整的金庸小說?
有没有telegram,交流经验。
可能是中文语言的互联网高质量的文章不如英文多导致文心一言输出质量不够高
A城市有100万人口,这100万人口均匀分布居住在城市的各个区域。请问如何大致推算这个城市有多少个理发师?文心一言3.5:50000个,讯飞星火:≈9090.9个,通义:4875个。
KIMI:5000
想看llama3和claude3 的评测
会不会因为在训练的时候,文心和gpt获取的资源本身就有不小的差距呢,
东东老师,你应该再列一项“语义理解”,这个很关键。比如有一次我用文心一言“我想写一篇论文”,然后它就啪啪啪打出来了一篇论文的结构提纲给我。这完全是我的自言自语它却给我堆砌一大堆没用的东西。而GPT回答说“嗯,我可以帮助您做些什么?”,这就表明文心一言对提问者的心理动态完全没有揣度清楚。
宝藏东东,能在油管遇见你太好了❤
nice to meet you ^_^
太让人惊讶了,技高一筹的云隐翠谷竟然是ChatGPT写的,文心一言和百度还是要多加油。
确实还得加油
成长第一步:不吹牛,低调做事
做大第一步,反相操作
这片土壤,不是企业需要吹牛,而是民众需要企业吹牛!
不是民众需要,而是党需要。
Grok不是开源了吗
豆包怎么样呢。
押韵押得很好
如果从诗反向推想景色,文心一言的更贴近这种丘陵地貌。GPT的更像庐山那种景色。
1:52 这个大概是Chain的结构设计得不好吧 如果用refine chain对对话历史做总结 应该没啥差距感觉
想看GPT4和通义千问
东东一出手,便知有没有!!!
AI吟诗用的是什么软件呀?
微软的AZURE
我用的是没有升级的gtp3.5,体验感非常差😂
如果把苹果手机换成小米手机,CZcamsr网红改成B站网红会怎么样,好奇。问题偏文科,可以提一些理科问题看看。
这个视频的优点在于 其本身的叙述结构是一级棒👍。不会是Gpt 帮你搞的吧😂😂😂 太好了☺️
实际上,gpt也是根据已经的文本去生成,但它的语料质量高。
我觉得是文心一言主要是靠国内网络环境学习,而ChatGPT有整个世界的网络环境去学习,所以回答的就能更完整,我估计文心一言不会翻墙,又或者是翻了墙但是只会中文所以只学习中文知识,ChatGPT会学习任何语言的内容,所以知识库比较大。 至于那个作诗,我个人觉得见仁见智吧,肯定有人更喜欢文心一言的诗。
数据库多表连接图片发送了,都一样的效果。
中国llm的第一梯队就只有文心一言吗?通义千问、天工、kimi、豆包等这些东东能不能也一起测一下。
为啥都是后来者?不就是抄袭和魔改吗?
@@user-qd4yl3hq7k 难道closeAI开源了?
@@user-qd4yl3hq7k 你自己抄一个试试?按照你思维openai也是抄的谷歌论文
很详细,总结,能翻墙就用GPT,翻不了就一言
很明顯,作為語言模型GPT吊打文心,全方位的全語種地吊打。
某度从第一輪就想插入廣告…
31:49 局部重画
ChatGPT 总体比文心一言强,但是在某些中文场景的理解上文心一言确实强一些
我很好奇为什么这些语言模型对数学的解决能力都非常差,我给他们一些小学的竞赛都回答不正确,包括Gemini 和copilot
理发师的推理案例CHATGPT好像也没搞对吧。总需求100万*12=120万人次/年,除以每个理发师年服务能力400人次,理发师数量需求=120万/400=3000
广告搜索公司跟科技公司还是有区别的,😂我根本都懒得试百度,百度网站基本上测试网络时才开一下
我也问过。中国60岁以上的的人口数量,和比重。(豆包)这个免费软件都能回答,百度这个软件不行
一开始猜对了
W文心一言比谷歌双子强吗?应该差距很大
Gemini is racist against white people and biased against non-lgbt people. Pretty sure wen xing is different in this regard
文心一言差太远了,建议东东关注一下智谱清言
7 :44 Chatgpt会提醒你网页抓取可能会有法律问题
文心就是一个自动百度
试下来一言3.5比chatgpt3.5好,4.0的没对比过不知道。
从目前开源程度的发展来看 我们一届普通人 已经无法分辨 哪个更好了 应该说 不做科研级别的开发 openai促进了整体行业的发展 文言一心作为国内的一线跟随 也算是没白花跟随经费
中国有很多的GPT式模型,我不知道谁强,但是我用过百度的,一言难尽、、、挺一般的。。。
也许是因为要在国内平台分发的原因吧。我觉得东东在很多时候给文心留了很多的面子。有的原因也没敢再细说。
免得律师函麻烦
我都在使用免费版,没发现很大差距(✿◡‿◡)老师方便测一下智谱清言?Thanks♪(・ω・)ノ
还用测吗?手机里 电脑里一个百毒软件都没有
一样从不用垃圾百度的任何服务!谷歌退出后这么多年百度这个垃圾没有一丁点进步,只会卖排名卖药卖广告,昧着良心捞钱!
我晕!
🎯 Key Takeaways for quick navigation:00:02 *📜 文心一言和GPT4.0写诗对决:*- 文心一言和GPT4.0各自写了一首诗,展示其文学创作能力;- 视频以挑战的方式展示两者写诗的结果,考验其创作水平。00:34 *💬 文心一言4.0和GPT4.0的发布时间:*- GPT4.0发布于2023年3月14日;- 文心一言4.0发布于2023年10月17日;- GPT4 Turbo发布于2023年11月6日,展示了技术的进步和竞争的激烈程度。01:07 *📊 大模型文本质量能力测试:*- 通过对文本质量、联网能力、推理计算、文生成图、图片识别、翻译、文档处理等七项能力进行测试,以评估文心一言4.0和GPT4.0的综合表现;- 测试中着重考察文心一言4.0在中文古诗词接龙比赛中表现,以及GPT4.0的文本质量和对话连贯性。02:12 *🏆 文心一言4.0在古诗词接龙比赛中的表现:*- 文心一言4.0表现较差,未能严格遵守游戏规则,展示了其对上下文理解和自信度的不足;- GPT4.0在对话中展现出更强的自信和上下文理解能力,正确率较高。03:17 *🧠 GPT4.0的上下文理解能力:*- GPT4.0在持续对话中保持严格的游戏规则,展现出优秀的上下文理解能力;- 通过100多轮对话的测试,GPT4.0表现出良好的对话连贯性和理解能力。04:21 *💭 文心一言4.0和GPT4.0对于假设性问题的回答比较:*- 文心一言4.0在回答假设性问题时较为模糊,未能给出全面的回答,表现相对较差;- GPT4.0在回答假设性问题时给出了更全面的答案,展示了其对各种场景的应用能力。05:26 *📚 GPT4.0的全面理解能力:*- GPT4.0在回答广泛的问题时表现较为全面,结构化能力强;- 文心一言4.0在某些问题回答中显得较为局限和不足。07:03 *📊 文心一言和GPT的结构化能力对比*- GPT更有结构化一些,细节更完善- 文心一言答案及格,但结构性不足,需要用户自行总结07:35 *📚 大模型相关的上下游产业链*- 文心一言给出10点来源,GPT总结了7个方面- GPT的答案更好,结构性更强,细节更完善08:08 *🖊️ 创作一些内容*- GPT在创作诗歌方面表现更好,能够押韵- 文心一言的答案虽然准确,但在诗歌创作上不如GPT09:49 *📊 对比报告的框架*- GPT的框架更专业,包括引言、研究方法、性能对比等- 文心一言的框架不够专业,可能不会得到好评11:28 *💡 如何解决how层面的问题*- 需要大模型整合海量信息,给出解决方案、有效路径、工具或方法论- 文心一言和GPT在解决how问题上表现出色,能够给出有效的解决方案14:11 *💰 为什么英伟达NVIDIA是大模型时代最赚钱的公司*- 文心一言认为是因为市场需求激增、技术领先、生态布局和业绩亮眼- GPT认为是因为生态布局扩大、技术领先和市场份额较大14:45 *📺 李子柒在CZcams上受欢迎的原因分析*- 文心一言的回答结构较好但有逻辑问题,认为是因为她展示了中国文化让海外观众产生共鸣- GPT的回答更全面,认为是因为她的视频内容定位独特、展示了中国农村生活、打破了语言障碍等原因20:36 *💡 文心一言回答质量取决于可抄取的文章质量*- 文心一言的回答质量分为较好、一般、较差三种情况,取决于抄取的文章质量- 文心一言更像一个无广告的加强版百度搜索,依赖于网络搜索结果来生成回答21:41 *🌐 文心一言在中文文本搜索方面的表现*- 文心一言擅长回答what层面和how层面的问题,对于多数提问都有较好的答案- 文心一言更像一个有大模型能力的、无广告的加强版百度搜索,提供了省时的整合答案23:15 *🔍 文心一言的联网能力强于GPT*- 文心一言具有强大的中文问答联网能力,可以直接搜索网络获取信息- GPT在需要联网搜索最新信息时表现不如文心一言,需要问题更明确才能给出正确答案27:38 *📏 数量推理和计算能力比较*- 推算一个城市的理发师数量,考虑了人均理发频率、理发师工作时间和能力等因素- GPT和文心一言在数量推理和计算方面表现相近,但文心一言的答案更加合理和精确30:18 *🎨 文生图绘画能力对比*- 文心一言的文生图只支持中文描述,绘画能力有限,只能画出简单的图像,如画一个葡萄放在盘子中央时,画得不够真实和准确- GPT的文生图在绘画能力方面更加出色,能够画出更加复杂和真实的图像,如绘制温馨房间的空间关系和人物动作等34:15 *📷 图片识别能力比较*- 文心一言和GPT在简单图片识别方面表现相近,能够准确识别图片内容- 在复杂图片识别方面,文心一言的准确性稍逊于GPT,存在一些错误,如在一张显示电脑显示器的图片中,错误描述了鼠标的颜色收到!如果有任何其他问题或需要帮助,请随时告诉我。35:20 *🖥️ 图片识别能力比较:*- 文心一言的识别表现: - 能够识别出图片中的各种物品,如电脑、耳机、键盘、鼠标、眼镜等。 - 对于图片中的细节,如电脑屏幕壁纸、桌面和电线等,也能够准确识别。- GPT的识别表现: - 在描述图片中人物的着装风格时,提供了较为详细的描述,包括服装款式、颜色搭配和个人特点等。 - 在描述女士的着装风格时,提到了服装品牌和时尚元素的融合,展现了较强的时尚敏感度。38:38 *💬 翻译能力比较:*- 文心一言的表现: - 对于英文文本的翻译,能够准确理解句子含义,并给出通顺的中文翻译。 - 在涉及到特定词汇或短语的翻译时,有时会出现更贴近原文的翻译结果。- GPT的表现: - 在涉及到特定词汇或短语的翻译时,能够给出更多变化和更丰富的表达方式。 - 对于文本的整体理解和翻译准确度都表现出较高水平。39:11 *📄 文档处理能力比较:*- 文心一言的表现: - 在处理PDF文档时,能够识别文档中的关键信息,但对于一些特定问题的答案可能需要用户手动查找。 - 在处理英文文档时,可能会出现部分信息无法识别或处理的情况。- GPT的表现: - 在处理PDF文档时,能够准确地找到文档中的相关数据,并给出准确的答案。 - 在处理英文文档时,能够理解文档的内容,并给出准确的答案,表现出较高的文档处理能力。41:15 *💡 总结比较:*- 综合对比下来,文心一言在中文对话环境下的表现比Gemini要好用,但仍然不及GPT4智能。- 在图片识别、翻译和文档处理能力方面,GPT4表现出更高水平,尤其在处理PDF文档时表现出色。
Iphone變成灰白這麼麻煩 我們安卓有個睡眠模式可以直接黑白
现在KIMI热度好像比文心一言强 下期拿kimi来对比看看
好嘞
这个比赛不公平,你应该让文心写英文诗词,再让CHATGPT写中文诗词
后续还想看哪些AI大模型的测评,欢迎留言呀。😀
我用到现在kimi 在中文的生成上比Claude 和gpt 4都好
@@user-ss3gt2co5g on the way
@@yarralink6138 kimi我也简单试了下,有点东西
通义千问,用的较多。还有kimi
请东东老师比较一下文心一言与智谱清言、通义千问、百川、商汤商量和讯飞星火。 CPT4与cloude和Mistral。 文生图各模型的比较,音乐模型的比较!
我也做过一些对比,所以很能体会影片的内容,节目做得很用心很好,辛苦了
感谢东东,踏实、认真、逻辑性强、可信度高,我看了你至少十个影片,对准备做CZcams 主的我帮助很大,学到了很多,感谢你!
加油 期待你的视频
佩服佩服,感謝你的認真和分享,非常值得一看再看😊
你的视频质量很高,看你的视频真的能学到知识👍
东东的内容依然扎实。爆赞❤
文心一言解决不了“敏感词”问题,不会成功的。
沒錯,但是身在強國裡面的人又怎敢戳破神話?
你用英文问chatgpt敏感问题试试
文心一言还存在训练数据不准的问题,人工智能训练数据首先需要准确的raw data。而百度上的答案全是错的。
@@MarcBester 虽然chatGPT过滤掉了一些敏感问题,但是它训练的数据则是全面的。而百度文心一言训练数据恐怕都做不到这点。
@@MarcBester你是说不能问色情内容吗?
“一言”是“一言难尽”的意思,东东哥真有才!
一言还有另一个意思。但是某当很多年前解释为闽主集中制。
這些年百度嘗試進入很多領域,但堅持下來的只有網盤一項
笑喷,还有贴吧
垃圾網盤 10kb/s
难道不是搜索关键词出来的大量广告?
@@NM4L-貼吧不算這些年了,有20年吧了吧,僅次於搜索的起家業務了。
而且下载特别慢 让你花钱开会员😂
这个视频认真看完了,做的很不错,加油
CZcams 上最好的知识博主之一!👍
感谢认可
非常棒的影片,学到很多东西。👍
学习到了,赞👍
很详细,在短视频泛滥当下,能坚持一丝不苟的做长视频真的不容易❤
强,很有启发,感谢东东
您的视频确实很优质,谢谢您🌹,让我受益匪浅
真不错的测评,很棒!
你的片質量很高
专业+风趣,最佳老师莫过于东东老师❤
分析的到位
你,确实是个知识博主。看你的视频,收益良多。谢谢!
东东哥,被你上次的视频推坑,直接导致了我从此进入“得到”的深坑,又花钱又花时间,立即直接地成为了深度用户。。。。。。。。
到友你好
看完了,确实chatgpt不是强了一点半点。第一次看博主视频,很不错都是干货,想请教下,之前没有接触过chatgpt,怎么上手,有没有一套从下载到使用的保姆视频?
东哥好,视频41:13处柱状图第一项标注错了,应该是"文本质量",标注成"文档处理"
没有测到大模型的本质。都是在搜索引擎思维使用大模型。你用解决问题的方式去试试,百度还是停留在搜索引擎阶段,gpt就是一个能干活的专家型员工。比如你发一个csv文档给它,让它帮你去干一些事情,分析数据,提出问题,解决问题。这些百度就干不了,说白了一个是ai,一个还是个搜索引擎知识库
感谢分享👍,下了很多功夫
推理和數學有個建議,我發現有些大模型不知道是怎麼調的,讓他不要列出推理過程直接給答案,有些模型回答問題智商會直線下降,但有的大模型幾乎不降。
对比得很好👌
即生动,又有趣,关注。
百度為什麼可以與GPT相比,根本不是一個水準的產品
你問問chat,川菜回鍋肉的製作方法,然後你看看它的製作能吃嗎?
博主,这个视频我可转发到国内平台吗
看你的视频觉得很享受,也能学习到东西。👍
感谢分享
谢谢分享!
喝汽水的那个题目我用中文发给gpt4,他始终回答是38瓶。都不回答39,更不用考虑借一个瓶子,提醒了它好多遍才做到39。but如果同样的问题用英文问AI,会直接正确。测试了Gemini,Claude,gpt,Copilot都是38,所以中文语境还有待加强
我在工作中选型大模型时也就工作中的场景对大模型做过比较,比较了chatgpt3.5,文心一言,百川,最后发现文心一言是最糟糕的,chatgpt3.5和百川一样好
博主,你好,请问你的视频中人物是数字人吗?我注意到手部动作有一些是循环的
不是,那是我动作太单一了hhh
@@Tan_Dongdong 他是故意说你动作单调来的……哈哈哈哈
文心一言反击了
- 00:02 杭州西湖龙井村十里琅珰介绍
- 描述风景和请求作诗
- 00:23 比较文心一言4.0和GPT4.0
- 介绍GPT4.0和文心一言4.0的发布时间和背景
- 01:12 测试项目介绍
- 列出将比较的7项能力:文本质量、联网、推理计算、文生图、图片识别、翻译、文档处理
- 01:28 文本质量测试
- 介绍文本质量测试的内容,包括古诗词接龙比赛和问答问题
- 02:02 文心一言在古诗词接龙中的表现
- 描述文心一言在第十轮开始不遵守规则
- 02言和GPT在文本质量上的表现
- GPT在古诗词接龙中的坚持和准确性
- 03:38 有标准答案的问题测试
- 提出一系列有标准答案的问题进行测试
- 04:05 更难的问题测试
- 提出需要分析和推理的"what if"问题
- 05:47 元问题测试
- 测试大模型对于"what questions"的回答能力
- 07:04 大模型相关产业链问题
- 询问大模型相关产业链的知识
- 07:26 数据来源和供应商问题
- 探讨大模型的数据来源和供应商
- 07:56 文心一言的文本质量评价
- 评价文心一言的文本回答质量
- 08:16 直接输出内容的能力测试
- 测试大模型创作诗歌、文案等能力
- 09:23 吟诗环节
- AI吟诵创作的诗歌
- 09:38 研究报告框架任务
- 要求生成研究报告的框架提纲
- 10:30 对比ChatGPT和文心一言的研究报告提纲
- 分析两个模型提供的提纲结构和内容
- 11:28 How层面问题测试
- 测试解决方案和有效路径的提供能力
- 13:29 Why层面问题测试
- 测试分析推理和整合输出答案的能力
- 14:25 李子柒CZcams订阅量分析
- 分析李子柒视频内容受欢迎的原因
- 17:17 提问能力的重要性和提升方法
- 探讨AI时代提问能力的重要性和提升方法
- 21:02 文档处理能力测试
- 测试从PDF文档中提取信息的能力
- 23:06 综合评价文心一言
- 对文心一言的各项能力进行综合评价
- 23:23 联网能力测试
- 测试模型的联网搜索和信息获取能力
- 24:39 推理能力测试
- 通过逻辑问题测试模型的推理能力
- 30:02 文生图能力测试
- 测试模型生成图像的能力
- 34:07 图片识别能力测试
- 测试模型识别和描述图片内容的能力
- 37:43 翻译能力测试
- 测试模型的翻译能力
- 38:44 文档处理能力测试
- 测试模型处理PDF文档和提取信息的能力
- 41:11 代码能力评价
- 评价模型的代码处理能力
- 41:14 综合对比总结
- 总结文心一言和GPT4.0的综合能力对比
想看看 Copilot与Gemini之间的差别。
文心一言夠了 拿來做AI網路審查員 夠用了 😂
如今直上银河去 何使人间路再通。虽然不太对仗 意境还是比较可以。
能测试copilot pro吗
国产好像就阿里云灵积,零一,月之暗面可以很方便地在第三方chat应用里调用。
大模型除了模型本身調整以外,最重要還是訓練的資料,任何系統都是garbage in garbage out
所以GPT為何先是在美國起來,因為西方網路世界有效資料還是比較多,各種名校免費公開課、github、stack overflow...
东东出品,必是精品
笔芯
GPT的文档理解能力很强,难怪能产生这么好的回答。
国内互联网公司全都是看国外有成熟的商业模式才会动,之前压根没有技术储备…
Gpt 可以坚挺很久的😂我测试过一周的上下文理解~就是一个项目~真的不错。过很久点回去以前的对话,又可以接着下去了
它可以一直记住,只要你不删除。
@@oo-re6wo 是的~😁
AI何時能寫出一部完整的金庸小說?
有没有telegram,交流经验。
可能是中文语言的互联网高质量的文章不如英文多导致文心一言输出质量不够高
A城市有100万人口,这100万人口均匀分布居住在城市的各个区域。请问如何大致推算这个城市有多少个理发师?
文心一言3.5:50000个,
讯飞星火:≈9090.9个,
通义:4875个。
KIMI:5000
想看llama3和claude3 的评测
会不会因为在训练的时候,文心和gpt获取的资源本身就有不小的差距呢,
东东老师,你应该再列一项“语义理解”,这个很关键。比如有一次我用文心一言“我想写一篇论文”,然后它就啪啪啪打出来了一篇论文的结构提纲给我。这完全是我的自言自语它却给我堆砌一大堆没用的东西。而GPT回答说“嗯,我可以帮助您做些什么?”,这就表明文心一言对提问者的心理动态完全没有揣度清楚。
宝藏东东,能在油管遇见你太好了❤
nice to meet you ^_^
太让人惊讶了,技高一筹的云隐翠谷竟然是ChatGPT写的,文心一言和百度还是要多加油。
确实还得加油
成长第一步:不吹牛,低调做事
做大第一步,反相操作
这片土壤,不是企业需要吹牛,而是民众需要企业吹牛!
不是民众需要,而是党需要。
Grok不是开源了吗
豆包怎么样呢。
押韵押得很好
如果从诗反向推想景色,文心一言的更贴近这种丘陵地貌。GPT的更像庐山那种景色。
1:52 这个大概是Chain的结构设计得不好吧 如果用refine chain对对话历史做总结 应该没啥差距感觉
想看GPT4和通义千问
东东一出手,便知有没有!!!
AI吟诗用的是什么软件呀?
微软的AZURE
我用的是没有升级的gtp3.5,体验感非常差😂
如果把苹果手机换成小米手机,CZcamsr网红改成B站网红会怎么样,好奇。问题偏文科,可以提一些理科问题看看。
这个视频的优点在于 其本身的叙述结构是一级棒👍。不会是Gpt 帮你搞的吧😂😂😂 太好了☺️
实际上,gpt也是根据已经的文本去生成,但它的语料质量高。
我觉得是文心一言主要是靠国内网络环境学习,而ChatGPT有整个世界的网络环境去学习,所以回答的就能更完整,我估计文心一言不会翻墙,又或者是翻了墙但是只会中文所以只学习中文知识,ChatGPT会学习任何语言的内容,所以知识库比较大。 至于那个作诗,我个人觉得见仁见智吧,肯定有人更喜欢文心一言的诗。
数据库多表连接图片发送了,都一样的效果。
中国llm的第一梯队就只有文心一言吗?通义千问、天工、kimi、豆包等这些东东能不能也一起测一下。
为啥都是后来者?不就是抄袭和魔改吗?
@@user-qd4yl3hq7k 难道closeAI开源了?
@@user-qd4yl3hq7k 你自己抄一个试试?按照你思维openai也是抄的谷歌论文
很详细,总结,能翻墙就用GPT,翻不了就一言
很明顯,作為語言模型GPT吊打文心,全方位的全語種地吊打。
某度从第一輪就想插入廣告…
31:49 局部重画
ChatGPT 总体比文心一言强,但是在某些中文场景的理解上文心一言确实强一些
我很好奇为什么这些语言模型对数学的解决能力都非常差,我给他们一些小学的竞赛都回答不正确,包括Gemini 和copilot
理发师的推理案例CHATGPT好像也没搞对吧。总需求100万*12=120万人次/年,除以每个理发师年服务能力400人次,理发师数量需求=120万/400=3000
广告搜索公司跟科技公司还是有区别的,😂我根本都懒得试百度,百度网站基本上测试网络时才开一下
我也问过。中国60岁以上的的人口数量,和比重。(豆包)这个免费软件都能回答,百度这个软件不行
一开始猜对了
W文心一言比谷歌双子强吗?应该差距很大
Gemini is racist against white people and biased against non-lgbt people. Pretty sure wen xing is different in this regard
文心一言差太远了,建议东东关注一下智谱清言
7 :44 Chatgpt会提醒你网页抓取可能会有法律问题
文心就是一个自动百度
试下来一言3.5比chatgpt3.5好,4.0的没对比过不知道。
从目前开源程度的发展来看 我们一届普通人 已经无法分辨 哪个更好了 应该说 不做科研级别的开发 openai促进了整体行业的发展 文言一心作为国内的一线跟随 也算是没白花跟随经费
中国有很多的GPT式模型,我不知道谁强,但是我用过百度的,一言难尽、、、挺一般的。。。
也许是因为要在国内平台分发的原因吧。我觉得东东在很多时候给文心留了很多的面子。有的原因也没敢再细说。
免得律师函麻烦
我都在使用免费版,没发现很大差距(✿◡‿◡)
老师方便测一下智谱清言?Thanks♪(・ω・)ノ
还用测吗?手机里 电脑里一个百毒软件都没有
一样从不用垃圾百度的任何服务!谷歌退出后这么多年百度这个垃圾没有一丁点进步,只会卖排名卖药卖广告,昧着良心捞钱!
我晕!
🎯 Key Takeaways for quick navigation:
00:02 *📜 文心一言和GPT4.0写诗对决:*
- 文心一言和GPT4.0各自写了一首诗,展示其文学创作能力;
- 视频以挑战的方式展示两者写诗的结果,考验其创作水平。
00:34 *💬 文心一言4.0和GPT4.0的发布时间:*
- GPT4.0发布于2023年3月14日;
- 文心一言4.0发布于2023年10月17日;
- GPT4 Turbo发布于2023年11月6日,展示了技术的进步和竞争的激烈程度。
01:07 *📊 大模型文本质量能力测试:*
- 通过对文本质量、联网能力、推理计算、文生成图、图片识别、翻译、文档处理等七项能力进行测试,以评估文心一言4.0和GPT4.0的综合表现;
- 测试中着重考察文心一言4.0在中文古诗词接龙比赛中表现,以及GPT4.0的文本质量和对话连贯性。
02:12 *🏆 文心一言4.0在古诗词接龙比赛中的表现:*
- 文心一言4.0表现较差,未能严格遵守游戏规则,展示了其对上下文理解和自信度的不足;
- GPT4.0在对话中展现出更强的自信和上下文理解能力,正确率较高。
03:17 *🧠 GPT4.0的上下文理解能力:*
- GPT4.0在持续对话中保持严格的游戏规则,展现出优秀的上下文理解能力;
- 通过100多轮对话的测试,GPT4.0表现出良好的对话连贯性和理解能力。
04:21 *💭 文心一言4.0和GPT4.0对于假设性问题的回答比较:*
- 文心一言4.0在回答假设性问题时较为模糊,未能给出全面的回答,表现相对较差;
- GPT4.0在回答假设性问题时给出了更全面的答案,展示了其对各种场景的应用能力。
05:26 *📚 GPT4.0的全面理解能力:*
- GPT4.0在回答广泛的问题时表现较为全面,结构化能力强;
- 文心一言4.0在某些问题回答中显得较为局限和不足。
07:03 *📊 文心一言和GPT的结构化能力对比*
- GPT更有结构化一些,细节更完善
- 文心一言答案及格,但结构性不足,需要用户自行总结
07:35 *📚 大模型相关的上下游产业链*
- 文心一言给出10点来源,GPT总结了7个方面
- GPT的答案更好,结构性更强,细节更完善
08:08 *🖊️ 创作一些内容*
- GPT在创作诗歌方面表现更好,能够押韵
- 文心一言的答案虽然准确,但在诗歌创作上不如GPT
09:49 *📊 对比报告的框架*
- GPT的框架更专业,包括引言、研究方法、性能对比等
- 文心一言的框架不够专业,可能不会得到好评
11:28 *💡 如何解决how层面的问题*
- 需要大模型整合海量信息,给出解决方案、有效路径、工具或方法论
- 文心一言和GPT在解决how问题上表现出色,能够给出有效的解决方案
14:11 *💰 为什么英伟达NVIDIA是大模型时代最赚钱的公司*
- 文心一言认为是因为市场需求激增、技术领先、生态布局和业绩亮眼
- GPT认为是因为生态布局扩大、技术领先和市场份额较大
14:45 *📺 李子柒在CZcams上受欢迎的原因分析*
- 文心一言的回答结构较好但有逻辑问题,认为是因为她展示了中国文化让海外观众产生共鸣
- GPT的回答更全面,认为是因为她的视频内容定位独特、展示了中国农村生活、打破了语言障碍等原因
20:36 *💡 文心一言回答质量取决于可抄取的文章质量*
- 文心一言的回答质量分为较好、一般、较差三种情况,取决于抄取的文章质量
- 文心一言更像一个无广告的加强版百度搜索,依赖于网络搜索结果来生成回答
21:41 *🌐 文心一言在中文文本搜索方面的表现*
- 文心一言擅长回答what层面和how层面的问题,对于多数提问都有较好的答案
- 文心一言更像一个有大模型能力的、无广告的加强版百度搜索,提供了省时的整合答案
23:15 *🔍 文心一言的联网能力强于GPT*
- 文心一言具有强大的中文问答联网能力,可以直接搜索网络获取信息
- GPT在需要联网搜索最新信息时表现不如文心一言,需要问题更明确才能给出正确答案
27:38 *📏 数量推理和计算能力比较*
- 推算一个城市的理发师数量,考虑了人均理发频率、理发师工作时间和能力等因素
- GPT和文心一言在数量推理和计算方面表现相近,但文心一言的答案更加合理和精确
30:18 *🎨 文生图绘画能力对比*
- 文心一言的文生图只支持中文描述,绘画能力有限,只能画出简单的图像,如画一个葡萄放在盘子中央时,画得不够真实和准确
- GPT的文生图在绘画能力方面更加出色,能够画出更加复杂和真实的图像,如绘制温馨房间的空间关系和人物动作等
34:15 *📷 图片识别能力比较*
- 文心一言和GPT在简单图片识别方面表现相近,能够准确识别图片内容
- 在复杂图片识别方面,文心一言的准确性稍逊于GPT,存在一些错误,如在一张显示电脑显示器的图片中,错误描述了鼠标的颜色收到!如果有任何其他问题或需要帮助,请随时告诉我。
35:20 *🖥️ 图片识别能力比较:*
- 文心一言的识别表现:
- 能够识别出图片中的各种物品,如电脑、耳机、键盘、鼠标、眼镜等。
- 对于图片中的细节,如电脑屏幕壁纸、桌面和电线等,也能够准确识别。
- GPT的识别表现:
- 在描述图片中人物的着装风格时,提供了较为详细的描述,包括服装款式、颜色搭配和个人特点等。
- 在描述女士的着装风格时,提到了服装品牌和时尚元素的融合,展现了较强的时尚敏感度。
38:38 *💬 翻译能力比较:*
- 文心一言的表现:
- 对于英文文本的翻译,能够准确理解句子含义,并给出通顺的中文翻译。
- 在涉及到特定词汇或短语的翻译时,有时会出现更贴近原文的翻译结果。
- GPT的表现:
- 在涉及到特定词汇或短语的翻译时,能够给出更多变化和更丰富的表达方式。
- 对于文本的整体理解和翻译准确度都表现出较高水平。
39:11 *📄 文档处理能力比较:*
- 文心一言的表现:
- 在处理PDF文档时,能够识别文档中的关键信息,但对于一些特定问题的答案可能需要用户手动查找。
- 在处理英文文档时,可能会出现部分信息无法识别或处理的情况。
- GPT的表现:
- 在处理PDF文档时,能够准确地找到文档中的相关数据,并给出准确的答案。
- 在处理英文文档时,能够理解文档的内容,并给出准确的答案,表现出较高的文档处理能力。
41:15 *💡 总结比较:*
- 综合对比下来,文心一言在中文对话环境下的表现比Gemini要好用,但仍然不及GPT4智能。
- 在图片识别、翻译和文档处理能力方面,GPT4表现出更高水平,尤其在处理PDF文档时表现出色。
Iphone變成灰白這麼麻煩 我們安卓有個睡眠模式可以直接黑白
现在KIMI热度好像比文心一言强 下期拿kimi来对比看看
好嘞
这个比赛不公平,你应该让文心写英文诗词,再让CHATGPT写中文诗词