大语言模型(LLM)大翻车!

目前几大主流的LLM,都表现出很好的语言理解力和总结能力,这是LLM这套设计架构下天然该有的能力。在此基础之上,如果增加图像或视频的创作功能,就有了各种花式的创作型应用。

然而,到目前为止,AI还只是看起来“懂”人类的交流而已(事实上并不是那么回事,文末会展开简单说一下),所以在一些比较严谨的语言逻辑理解领域,LLM就很容易翻车。

最近,一些网友在调戏AI的时候,就发现AI这种计算机智慧的算术能力竟然很差!

注意:这里讲的算术能力,原文是「basic arithmetic abilities」,而并不是数学能力「mathabilities」。

01

GPT3.5 Turbo的累加算术有多差?

先说这个算术测试的方法。有网友「数字累加」游戏逗AI,结果发现AI被逗傻了。(数字累加就是用自然语言告诉AI,比如:1加2加3加4加5加6,一共等于多少?)

图片[1]-大语言模型(LLM)大翻车!-JieYingAI捷鹰AI

(GPT3.5,图表来自网友自测的结果)

网友做了一系列的测试,有的时候ChatGPT能答对,有时候不能。从上图可知,当累加的数字位数比较少时,就算多个数字累加,结果依然是对的。但当增加数字位数到5位数或者7位数时,效果就开始明显变差(颜色越深表示正确率越差),ChatGPT的答案接近于胡说八道。

不过好消息是,用GPT4做测试,会发现结果好了很多(如下图),虽然依然无法一直保持正确。(这就很坑,你不知道在什么具体场景和条件下,AI给的答案是对的,或者是错的,这太具有不确定性了)

图片[2]-大语言模型(LLM)大翻车!-JieYingAI捷鹰AI

(GPT-4预览版,图表来自网友自测的结果)

有网友测试了Claude 3,结果发现竟然都能答对(如下图),挺神奇的。但因为都是AI,因此,也无法保证Claude 3是否能在所有具体的数值与表达的场景下都能保持100%的正确率。

图片[3]-大语言模型(LLM)大翻车!-JieYingAI捷鹰AI

(Claude3,图表来自网友自测的结果)

好奇的网友尝试让AI分解步骤,分别让GPT 3.5和Claude 3针对:「93992333+44639154+34531408+42881190+24704345等于多少」,列出如何做累加运算的,结果发现,GPT 3.5在第一步就错了。

图片[4]-大语言模型(LLM)大翻车!-JieYingAI捷鹰AI

(GPT的步骤分解图示,由热心网友提供)

93992333 + 44639154,应该等于138631487,而GPT觉得应该等于138031487。

图片[5]-大语言模型(LLM)大翻车!-JieYingAI捷鹰AI

而在另一边,Claude 3 拆解的结果是对的(如下图)。

图片[6]-大语言模型(LLM)大翻车!-JieYingAI捷鹰AI

由于GPT对步骤的大致理解是对的,但简单的加法计算的确又是错的,所以目前也不知道究竟是计算本身理解的问题,还是过程中因为语言或者算法优化等原因,导致出错。

02

不仅仅是GPT,所有AI的算术运算都很差

虽然Claude 3在「累加」游戏里很得瑟,但帅不过3秒。当把加法换成更复杂的算术运算以后,也免不了变成「智障」的命运。

比如,下图是换成「数字累乘」以后的正确率统计。

图片[7]-大语言模型(LLM)大翻车!-JieYingAI捷鹰AI

(Claude 3做乘法,图表来自网友自测的结果)

当然,GPT在这类游戏里,看起来总能作为Claude 3的垫背。(如下图)

图片[8]-大语言模型(LLM)大翻车!-JieYingAI捷鹰AI

(GPT-4预览版做乘法,图表来自网友自测的结果)

网友们坐不住了,开始了更全面的测试,并且还开了一个Github仓库来保存和分享结果(),有兴趣的小伙伴可以自行取阅。

图片[9]-大语言模型(LLM)大翻车!-JieYingAI捷鹰AI

我基于测试结果,合并和做了两个图,帮助大家快速识别AI在算术方面的智障程度:

图片[10]-大语言模型(LLM)大翻车!-JieYingAI捷鹰AI

(基于测试结果中加法部分做的统计)

图片[11]-大语言模型(LLM)大翻车!-JieYingAI捷鹰AI

(基于测试结果中乘法部分做的统计)

在上图中,2个2位数其实压根就不能叫累乘,放在图里作为参考。3个3位数做累乘的时候,GPT 3.5就已经到0%了。3个5位数做运算,AI们都塌了。

03

AI应用的困扰和机遇

其实就算是大数据类的运算结果,就已经开始需要大量复杂的测试去验证结果的正确性,更不用说像AI这样的「魔法」。而当前的LLM,又是很大程度上使用AI的「自主」理解能力,因此,我的个人观点一直是,当前的LLM更适合通过各种表达工具(比如:图生文,文生图,图生图等)在那些创作性领域,没有标准答案的束缚,会更能体现AI当前的创造力和生产力。

如果是要使用在有标准(或者偏向于标准答案)的领域内,我觉得像类似文档知识库一类的应用,通过合理的Embedding,至少可以保证答案以及背后的语意依然来自于一个标准的数据库,从而保证基本的正确率。

简而言之,我觉得可以这么理解,目前AI适合做发散性的事情(答案不绝对,也不唯一),作画、作曲、场景联系等等,而所有结果收敛性质的事情,比如在海量数据里找到匹配的结果,依然需要传统的信息化索引来实现。让AI和LLM来更多揣测用户意图,来构建更好的搜索关键字,来实现更好的逐步收敛(即:不断帮助用户接近于找到真正想找的内容),是一个有意义和价格的实用场景。

所以,目前偏领域实用的AI应用,都是LLM能力组合了数字化业务与应用的能力,这其实也是当前各种领域型AI,或者垂直类AI的机遇所在。LLM让沟通更连续和顺畅,体验上更自然,真正业务场景上的「智力」,根本上都来自于数字化应用强大的业务承载、汇集、分析和自动化能力。

所以说,AI是数字化转型的下一个阶段的形态,而业务的数字化能力是AI在业务上的根本竞争力!

或许等以后,有了针对「魔法」的测试工具或者方法,让魔法去测试魔法,才能让魔法更好胜任更多的场景。

04

解释下AI智慧与人类智慧的不同

从2010年代那波AI兴起开始,一直到现在,AI理解世界和运行的逻辑,至始至终都不是人类的那种,只是从结果看,不断贴近人类的认知与行为而已。

比如,之前的AI识图,不管是看起来多么高级的AI识图,其本质就还是用AI基于概率,做归类。比如,给AI一张小动物的图片,让他根据训练的结果,判断是猫和是狗的概率分别是多少,然后根据判断的信心值来构造答案。(只是举例,实际应用中分类会非常多,本质上还是使用计算机的海量存储和高速遍历的基本能力)

包括现在的LLM,其实本质也还是概率,通过大量数据内容和训练,让它“猜”后面的内容是什么,以此实现所谓的“语意理解”,然后再组合不同大小和复杂度的知识库,来实现智能的回答。(所以,可以简单把ChatGPT理解成一个超级大号的世界级知识库应用)

END

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享