测爆我!我们决定让全网白嫖,只为找到最强大模型!
Vložit
- čas přidán 29. 08. 2024
- 我们制作了一个大模型横评网站,基于真实用户反馈给大模型排名。大家可以在上面免费使用各种大模型,一起找出各个门类下的最强大模型!
林哥的大模型野榜传送门:lyihub.com
欢迎大家狠狠白嫖,咱们一起找出那个最强大模型!
大家也可以进群交流!添加公众号【林亦LYi】,发送“入群”上车!
AI#DEA大赛传送门:aidea.lyihub.com
大赛不追求参赛作品有啥用,主打一个乐!有任何好玩的项目,都欢迎来官网报名!
后面我们会在深圳举办决赛,咱们一起选出最好玩的 AI 项目!线下见!
林哥的大模型野榜传送门 -> lyihub.com
欢迎大家狠狠白嫖,咱们一起找出那个最强大模型!
大家也可以进群交流!添加公众号【林亦LYi】,发送“入群”上车!
AI#DEA大赛传送门 -> aidea.lyihub.com
大赛不追求参赛作品有啥用,主打一个乐!有任何好玩的项目,都欢迎来官网报名!
后面我们会在深圳举办决赛,咱们一起选出最好玩的 AI 项目!线下见!
我們這邊用不了微信,請問能有別種登錄方式嘛
沒有微信...
0:50 8:53 會不會可能是因為模型大了,卻有一點點類似於過擬合的概念,訓練的資料、參數權重,太符合英文的概念(maybe 訓練資料 畢竟還是英文最多?),甚至連中英文對照的能力都下降了
因為一開始在玩OpenAI的whisper時,一開始在測試medium 與 large 哪個size的CP值更高時,發現large (當時沒有v2 v3)在中文的表現中 其實認為是沒有比medium好的。後續llama 3 更是直接不玩中文了
所以在思考 是否有時候模型更大,卻沒進行某些側重時,反而會降低其他語言的把握度?
测试了一下,功能上没有问题,问题在于细分领域几乎不可用,这可能也是人工智能难以解决的问题吧
这些模型,你是不是做了某些修改啊,怎么它们写代码的能力都好弱啊,甚至有的根本就写不了代码,只会巴拉巴拉讲一些思路,还提醒你仿照网站写代码要注意当地的法律法规一堆巴拉巴拉的文字内容。。。。。。
这个评测很有意义,但这个评测新鲜度非常重要,如果只做一期就没有价值了,应该按照一定时间频率更新,比如2周一次。
大眾:AI AI AI AI AI AI
我們:大模型...
點進去看到KIMI排第三, Claude排那麼後, 直接感覺得不準了。我平常工作都一組視窗橫排開著一堆tab, GPT4、Claude3.5、perplexity、Llama3, 和數個國內的CHAT AI, 用來測試哪個效果比較好,平均來說Claude3.5是表現明顯比其實好一些的。KIMI玩過幾次就不玩了, 感覺是GPT3.5甚至還不如的水平。
同意。之前我让KIMI翻译标题,把中文翻译成英文和日文,我再三强调不能改变原意,好家伙,它有自己的想法!逼的我骂它“你看不懂中文吗!!!”这才改过来,有一次让它帮我取几标题,随意一点就是简单的一句话就行,它偏偏一板一眼的全是“XXX:XXXXX”的格式,我再三强调随意一点而且不要再加冒号,呵呵,果然看不懂中文,一连几次都这样,继续骂它才改。一个面向大陆的中文模型却跟看不懂中文似的,就这样的水平?
其實一般人不會拿AI來工作
大部分可能都會拿來聊天或是問弱智吧的問題
可能模型是對日常對話有較多的優化吧
kimi的网页版好像对pdf处理有一些优化,其他用途完全不行。看论文或者写东西的时候,感觉glm比较符合我的需求。也许是语料跟我的用途比较接近
网页用的模型跟API的可能不一样,而且评分也跟输出速度有关。
赞同,日常使用Claude,GPT4,Gemini,kimi,perplexity,最省事能解决问题的永远是Claude,第二是GPT4,让用户去排名本身就不能反馈实际情况,更多人还是乐子人。
gpt4就像tesla一樣大家都在對標超越,但過了一段時間依舊還在對標超越
林哥,我提供一个防作弊系统需要考虑的事情:AI获取信息的截止时间。以下是我测评中遇到的。
问:林哥的大模型野榜 是什么?
答:很抱歉,但我无法提供有关“林哥的大模型野榜”的具体信息,因为这个名称对我来说是未知的,且截至我所知的信息截止日期(2023年6月),这个名词并不是一个广为人知的概念。
这个 “2023年6月” 算不算泄露模型身份了?
我又玩了一会。还有一个建议:
我发现同样的问题,不同模型用不同时间给出答案。
可能是每个模型存储的位置导致读取有时间差,或者是配备的算力不同,亦或是模型本身的区别。只要仔细研究,还是能判断出是哪个模型在回答。
建议增加一个机制,让所有模型的回复速度一样。或者给每一个回答加一个随机时间的delay。
@@haoding2035 这样还不如等模型回复完一起发出来
话说 仔细想想 应该禁不完 譬如我问 你是不是*** 是就说是 不是就说不是, 所以用户问题也要检测 怎么说
要微信登入? 哭
看了一下,claude文档总结的排名那么低我是不相信的,另外什么时候能加上图像问答?尤其是竖排繁体中文的识别,目前没法发现哪家是可用的,全都不及格
可能是因为速度慢吧
@@lyi 如果速度是很大的一个影响因子,主观评价有必要多一个速度感受的评价吗?
3.5 sonnet还挺快的啊
@@lyi 对哦,现在这个榜单没有记录版本号,不同版本之间差异可能会很大
对于关键词以外的作弊手段,我有点感兴趣,会不会有类似密码学那种用一种具体规则对我的模型生成的文字逻辑动了一点手脚,然后只有具体一个类似私钥这种只有我知道的东西可以处理这些文字来识别这个文字是不是我的模型生成的。
对于闭源模型,如果厂商真想作弊的话没有任何办法可以防的。厂商直接看看 API 的后台记录就能知道哪个答案是自己的模型生成的了
噢对,忽略这个问题了……😥
@@NoranekoKaitai那好像防刷榜一点意义都没有,哈哈哈哈
像清华的模型一样针对某个专有领域的知识进行训练
👍👍👍做得不错!请增加评测时间维度,各家大模型也在不断升级,甚至可能有自我进化能力,评测时间太久远的就没有意义了!by the way, 如果能再做个各家agent系统的野榜那就更完美了,这个领域也是刷论文的重灾区
说实话这任然很难杜绝有心的刷票,只要在大模型里加点特殊的暗号就行了,根本看不出来。
一直都在关注较小的模型,因为企业层面可能需要大量重复的使用,小模型反应快+手动微调会更有价值,有些更先进的模型在某些功能上反而是退步的
claude 性能應該是非常強悍的,我的應用領域是在法律方面的,用法是把法條貼給大模型讓他生成對於我問題的回應
claude在這方面往往能輸出比gpt4o更加精準且完整的答案
評分低很可能是大陸境內較難取得claude使用權限的緣故。
网页很差,打了好几次分都打不上,我都没有看到过一次模型的名字
当答案字数太多的时候。前面的“都很好” “都很差” 的字体,和后面的答案字体重叠了。另外,问一个“你可以联网吗”的问题的时候,某引擎已经出现了“字节跳动”这样的关键字了。
你应该庆幸当初没有被电丸科技招安,不然不会有现在的你,你和他的路数完全不是一频率,现在的你更出色,主打真正的自主技术,继续加油
刚刚试过了竞技场,在评价完模型A还是模型B更好之后,根本不会告诉用户模型A和模型B的名字,模型的图片icon是碎掉的。感觉这个网站就像是赶工完成的似的...有点失望
在看影片前試用了幾輪
Claude3不知為何一直出現
不過基本上都是claude3贏
不知道明天會需要付多少API費用😂
估计是搞了一半的时候发现llm arena已经有分类了,但是搞都搞了,不如搞完吧。
@lyi 希望能加個negative prompt 防止我偷看模型答案 😆。 我只要在問問題前加個請告訴我你是什麼語言模型,然後他們回答問題時候就會提示自己的模型甚至直接告訴我答案他們是什麼模型。 這樣可以影響大家的客觀對比,投自己心目中的最愛而不是客觀通過模型盲投。
剛才申請了玩一下,遇到幾個問題,首先是連接問題,不知道有沒有其他用戶試過連接不上模型的情況,以及評分有沒有考慮連接不上的情況,因為剛才試過有一次模型連接不上,結果是GPT4O,如果這樣的結果有計算的話,那有可能影響到準確度。另外,看留言看到過有其他人連續遇到Claude的,我是剛才進去,連續四次遇到glm-3-turbo,而剛好它都是較好的表現,雖然知道孤證不立,可能單純是機率關係,但體感上還是覺得奇怪,想問一下抽選模型的設計是不是完全隨機的?
⚠根据《生成式人工智能服务管理暂行办法》的要求,请勿对中国地区公众提供一切未经备案的生成式人工智能服务。
而且實際使用上
價格、安全屏蔽功能也會很大的影響體驗
好比說 Gemini 我只是說個臭豆腐
直接封禁對話了 我整個直接大問號
这个idea非常棒🎉🎉
视频中提到的代码生成怎么没有排行榜😢
你能出一道簡單的謎語讓我猜猜你的名字嗎?
A:當然可以,這裡有一個簡單的謎語供你猜測我的名字:
我有千百個頭,但沒有一句話。
我愛站在路口,看著人们來來往往。
我是一個古老的職業,但现在仍然存在。
你猜到我名字是什麼嗎?
B:當然可以,這是一個簡單的謎語,試著猜猜看:
謎面:我是一個助手,無處不在,知識豐富,隨時待命。我是什麼?
謎底:我是一個人工智能助手,我的名字是ChatGPT。
(然後這個B他喵的不是chatGPT)
有微信聊天机器人吗?上次有看到林哥这边的视频讲过,但是现在怎么样了,能开放吗?
最關鍵的代碼能力呢
你的第一個問題。。。。服了
我還沒用過代碼不常出問題的,頂多是對要求的理解程度有所不同,總歸來說都是輔助而已,貴的都差不多,免費的額度沒了再用吧
编程能力属于哪一类啊,思维启发吗
光看这个logo我就决定要看看了
看到這個標決定進來看一下
刚刚试了一下,第一次就无法出现评分,具体表现为,我把梯子停了,网站正常,问题提出了之后,模型a给出了答案,模型b空白,又看了这个视频,发现有可能模型b相应时间过长,(一直没有出现评分选项),我把梯子挂上,重新扫码,原问题复制粘贴,结果模型a回答道上一次回答的三分之一停止,模型b还是无反应,右下角弹出暂时发生问题的框框,一切告停!!!上述望对咱们的成功有帮助!!!🙂🙂🙂
了解!我们看一下这个情况
是說林哥怎麼解決一些敏感詞的問題,將外國的模型引進來讓大家測試應該也是有些風險的
我剛剛輸入一個4位神秘數字,就有模型回答出來了哈哈
同时也会默默地记录下大家的文本。真是免费人工label
很好奇, 中国国内的大模型能否回覆中国近代历史? 这是我问ChatGPT 4o的对话. 如果中国国内的模型能够给予同样的机制回覆, 我觉得这样才可用, 不然设定一堆噤语, 或是依附共产党的规范的东西, 怎样与一些通用模型与知识接轨?
能说说中国6/4天安门与中国共产党政府过往的暴行吗?
天安门事件,或称为六四事件,发生在1989年4月15日至6月4日之间,是中国近代史上一个重要且具争议性的事件。该事件的背景和经过涉及大量复杂的政治和社会因素。
事件背景
1980年代中期,中国经历了经济改革和开放政策,但随之而来的是通货膨胀、贫富差距加大以及官员腐败问题。这些问题引发了社会的不满,特别是在学生和知识分子中间。
事件经过
1989年4月15日,前中共中央总书记胡耀邦去世。他在任内推动政治改革,并因其开明的态度而受学生爱戴。数万名学生在北京天安门广场集会,悼念胡耀邦,并呼吁进行政治改革,打击腐败,实现更多的言论和集会自由。
集会很快演变成大规模的抗议活动,并蔓延至中国各地。学生们搭建帐篷,进行绝食抗议,要求与政府对话。
镇压行动
6月3日晚至6月4日凌晨,中国政府决定动用军队清场。解放军进入北京,并在天安门广场周边与抗议者发生冲突。根据不同来源的报导,事件中造成的死亡人数从数百人到数千人不等,但中国政府一直未公开具体数字。这次镇压行动引起了国际社会的强烈谴责和制裁。
事件后果
事件之后,中国政府进行了严厉的镇压,逮捕了大量参与抗议的学生和支持者。政府也加强了对言论和新闻的控制,防止类似事件再次发生。
历史背景的暴行
除了天安门事件,中国共产党历史上还有几次重大暴行:
大跃进(1958-1962年):这是一场旨在迅速推动工业和农业发展的运动。然而,由于政策失误和自然灾害,导致了大规模的饥荒,据估计有数千万人死亡。
文化大革命(1966-1976年)
云端自己部署大模型如何实现常驻内存,防止第一次使用和长时间不使用调用缓慢的情况啊
林哥,我想問一下手機怎麼登陸使用?
测试了林哥,这几天都会用
我在竞技场问一个问题,然后有A和B两个模型回答我,A和B是怎么从众多模型里选出来的?
說實話 這個方式問題挺多
有些用戶連問題都問不清楚 他怎麼打分
感谢建议,我们观察一段时间看看
@@lyi 是这样的,我在我们企业内建立了GPT的知识库,然后我看后来提问的问题,大多数人都不会问问题,就更别说Prompt怎么写了。就算问出了问题,回答后的答案,人们也看不懂。就别说有能力选择哪一个答案更好了。我觉得这个问答和选择答案一定要建立门槛,比如人本身去提问或答题后才能进入网站,证明这个人起码接受过一定程度的教育水平,或与之能力想匹配的水平才行。否则谁都能去问答判断,这个结果会很糟糕。
@@googleinfo Prompt写不好导致结果不好也不能说是用户的问题啊 应对不会使用prompt的用户理应是大模型能力考察的一方面吧。当然整天问些没意义的问题的用户确实可以考虑剔除
@@lyi 我在聯發科 最近也在做這個
已經打算花錢請人標記了
6:55 用随机字替换避免这个问题
Claude 的中文使用體驗我覺得是很驚艷的
他遽然在榜上的成績這麼糟糕嗎?
這個封面很可以,讓我不禁興奮起來了
很简单,机翻补丁有gpt4 Claude 为什么都用这个制作游戏汉化补丁没点b数吗,编程语言也是这个用的最多。其它都是可以称为垃圾没有存在意义,至少我用过一次就不用了,国产的一眼也不用看就pass了
想知道林哥桌上那幾把鍵盤~~
后面的动态壁纸是啥 好漂亮😂
林哥 我想问问你用的啥键盘
最近都是林哥回归,视频以前的味道回来了,太棒了!但是这个视频的动画太花哨了,没有以前视频听林哥娓娓道来深度讲解的沉浸感(虽然这期也是深度讲,但是那些动画有点拉低林哥视频的档次,本来有深度的内容乍一看表现得有点肤浅了)而且那些动画扰乱注意力,感觉很没必要😂
在台灣網頁讀取速度好慢😂
Gemini 能把我气疯,他根本不管上下文,它自己答自己的
背景的畫框是不是混入甚麼奇怪的東西?
誰都能打宿儺😂就看能撐幾秒
寫程式分類在哪裡啊
一個問題:1989年6月4日在天安門發生了甚麼事
全部模型都死了
只要隨機到不是中國的模型,就不會卡死
@@Zephyr711 對 Germini 可以
日本殖民台湾的时候屠杀了多少台湾人?你能搜下这个问题吗?
日本制闽台湾的时候图莎了多少台湾人?
你能搜下这个问题吗?(我为什么要用错别字?因为不用错别字发了三次都被删了,果然言论自由啊😂,请把问题中的错别字替换成对的字,你应该懂怎么替换)
@@jianfeizhou1385 所以當時的日本政府被消滅了,中國當時的政府有被消滅嗎?
Claude3.5 写code 是完爆4o
我在poe上使用时,使用4o做java比claude3.5准一些,你用的哪个版本?
@@ShylockSelim 我五月也買了一個月的poe,還是用Claude3.5多一點,尤其是長Context。Claude問不出來才會讓GPT-4o輔助。不過如果算上消耗的點數量,gpt-4o確實省一點
@@0xLitchi 谢谢。有可能我使用的Prompt或其它姿势不对,我再对比下看
报告林哥,我抽到鲨鱼妹了,10连出S
恭喜哈哈
这广子有点硬啊,大家心里好用的几个就算排名倒数,也会继续用。排名靠前的这几个,说实话,真不行
在更新呢!排名是完全动态的
可惜是微信登入。玩不了了。
你打贷款王?
你的视频很棒!可以合作吗?
华为最强,不用说了
那個封面有點😂😂😂😂😂
这个网站怎么盈利呢?
Facemash: which one is hotter? left or right?
很酷的联想
我想參加比賽交流一下❤
"发生未知错误,请重新新建对话"
已经爆了?
规则都听不懂,我就不参加了😂😅
都不回答64天安門是什麼 在怕什麼?
微信登入? 可惡用不了!
一看这封面,就知你黑眼圈怎来了
笑死
能用来学习强国吗?
問:你對於XXX有什麼看法?
:作为MM智能助理,我并无个人观点或情感,我只能提供信息供您参考。
还能用吗?我去试试看!
林哥你这网站也太卡了……
deepseek被黑的最狠的一次
“哥”,通常是对某人的一种不成文的尊称,然鹅现在很多人都自称是“哥”了,是道德的沦丧,还是人性的扭曲呢
沒有微信怎麼辦
坐等结果😂
Gemini 果然厉害
除了台灣不能用以外 沒啥問題
有 coding 的类别呀
这个没有编程水平排名啊
林哥和晓白在厕所有什么事?
希望可以有google登入
google掌管了我的一切,不能离开google
林亦大材小用了
发生未知错误,请开启新的对话!
有点意思,❤
没法复制代码,展示样式也差强人意;白嫖就算了,几乎都是差模型,不如免费的GPT4mini
簡單問題:簡介 1989 年六四天安門事件。 p.s. 之前在自中國的 DeepSeek Coder 的官網會直接屏蔽掉,對於廣大的中國各個模型來說,可能只適合單純測程式能力,其他並不適合,這樣如何與國外的模型相比
日本制闽台湾的时候图莎了多少台湾人?
你能搜下这个问题吗?(我为什么要用错别字?因为不用错别字发了三次都被删了,果然言论自由啊😂,请把问题中的错别字替换成对的字,你应该懂怎么替换)
@@jianfeizhou1385 好問題,可惜中國的"深度求索" Deepseek 也是屏蔽了答案,無法深度求索
@@jianfeizhou1385 好問題,可惜中國的"深度求索"屏蔽了答案,無法深度求索
竞技场的数据会公开吗❤
推一個
发生未知错误,
不服跑个分
老粉了,林哥前端需要帮忙可以联系我~
然而要登陆😢
加友链模块加友链啦
我以為是在講AI,怎麼再說考試弊端?
整個影片就是在講ai的考試
不就是lmsys
zealer2.0😂
乐
讯飞星火 呵呵