大语言模型（LLM）大翻车！-JieYingAI捷鹰AI

目前几大主流的LLM，都表现出很好的语言理解力和总结能力，这是LLM这套设计架构下天然该有的能力。在此基础之上，如果增加图像或视频的创作功能，就有了各种花式的创作型应用。

然而，到目前为止，AI还只是看起来“懂”人类的交流而已（事实上并不是那么回事，文末会展开简单说一下），所以在一些比较严谨的语言逻辑理解领域，LLM就很容易翻车。

最近，一些网友在调戏AI的时候，就发现AI这种计算机智慧的算术能力竟然很差！

注意：这里讲的算术能力，原文是「basic arithmetic abilities」，而并不是数学能力「mathabilities」。

GPT3.5 Turbo的累加算术有多差？

—

先说这个算术测试的方法。有网友「数字累加」游戏逗AI，结果发现AI被逗傻了。（数字累加就是用自然语言告诉AI，比如：1加2加3加4加5加6，一共等于多少？）

（GPT3.5，图表来自网友自测的结果）

网友做了一系列的测试，有的时候ChatGPT能答对，有时候不能。从上图可知，当累加的数字位数比较少时，就算多个数字累加，结果依然是对的。但当增加数字位数到5位数或者7位数时，效果就开始明显变差（颜色越深表示正确率越差），ChatGPT的答案接近于胡说八道。

不过好消息是，用GPT4做测试，会发现结果好了很多（如下图），虽然依然无法一直保持正确。（这就很坑，你不知道在什么具体场景和条件下，AI给的答案是对的，或者是错的，这太具有不确定性了）

（GPT-4预览版，图表来自网友自测的结果）

有网友测试了Claude 3，结果发现竟然都能答对（如下图），挺神奇的。但因为都是AI，因此，也无法保证Claude 3是否能在所有具体的数值与表达的场景下都能保持100%的正确率。

（Claude3，图表来自网友自测的结果）

好奇的网友尝试让AI分解步骤，分别让GPT 3.5和Claude 3针对：「93992333+44639154+34531408+42881190+24704345等于多少」，列出如何做累加运算的，结果发现，GPT 3.5在第一步就错了。

（GPT的步骤分解图示，由热心网友提供）

93992333 + 44639154，应该等于138631487，而GPT觉得应该等于138031487。

而在另一边，Claude 3 拆解的结果是对的（如下图）。

由于GPT对步骤的大致理解是对的，但简单的加法计算的确又是错的，所以目前也不知道究竟是计算本身理解的问题，还是过程中因为语言或者算法优化等原因，导致出错。

不仅仅是GPT，所有AI的算术运算都很差

—

虽然Claude 3在「累加」游戏里很得瑟，但帅不过3秒。当把加法换成更复杂的算术运算以后，也免不了变成「智障」的命运。

比如，下图是换成「数字累乘」以后的正确率统计。

（Claude 3做乘法，图表来自网友自测的结果）

当然，GPT在这类游戏里，看起来总能作为Claude 3的垫背。（如下图）

（GPT-4预览版做乘法，图表来自网友自测的结果）

网友们坐不住了，开始了更全面的测试，并且还开了一个Github仓库来保存和分享结果（），有兴趣的小伙伴可以自行取阅。

我基于测试结果，合并和做了两个图，帮助大家快速识别AI在算术方面的智障程度：

（基于测试结果中加法部分做的统计）

（基于测试结果中乘法部分做的统计）

在上图中，2个2位数其实压根就不能叫累乘，放在图里作为参考。3个3位数做累乘的时候，GPT 3.5就已经到0%了。3个5位数做运算，AI们都塌了。

AI应用的困扰和机遇

—

其实就算是大数据类的运算结果，就已经开始需要大量复杂的测试去验证结果的正确性，更不用说像AI这样的「魔法」。而当前的LLM，又是很大程度上使用AI的「自主」理解能力，因此，我的个人观点一直是，当前的LLM更适合通过各种表达工具（比如：图生文，文生图，图生图等）在那些创作性领域，没有标准答案的束缚，会更能体现AI当前的创造力和生产力。

如果是要使用在有标准（或者偏向于标准答案）的领域内，我觉得像类似文档知识库一类的应用，通过合理的Embedding，至少可以保证答案以及背后的语意依然来自于一个标准的数据库，从而保证基本的正确率。

简而言之，我觉得可以这么理解，目前AI适合做发散性的事情（答案不绝对，也不唯一），作画、作曲、场景联系等等，而所有结果收敛性质的事情，比如在海量数据里找到匹配的结果，依然需要传统的信息化索引来实现。让AI和LLM来更多揣测用户意图，来构建更好的搜索关键字，来实现更好的逐步收敛（即：不断帮助用户接近于找到真正想找的内容），是一个有意义和价格的实用场景。

所以，目前偏领域实用的AI应用，都是LLM能力组合了数字化业务与应用的能力，这其实也是当前各种领域型AI，或者垂直类AI的机遇所在。LLM让沟通更连续和顺畅，体验上更自然，真正业务场景上的「智力」，根本上都来自于数字化应用强大的业务承载、汇集、分析和自动化能力。

所以说，AI是数字化转型的下一个阶段的形态，而业务的数字化能力是AI在业务上的根本竞争力！

或许等以后，有了针对「魔法」的测试工具或者方法，让魔法去测试魔法，才能让魔法更好胜任更多的场景。

解释下AI智慧与人类智慧的不同

—

从2010年代那波AI兴起开始，一直到现在，AI理解世界和运行的逻辑，至始至终都不是人类的那种，只是从结果看，不断贴近人类的认知与行为而已。

比如，之前的AI识图，不管是看起来多么高级的AI识图，其本质就还是用AI基于概率，做归类。比如，给AI一张小动物的图片，让他根据训练的结果，判断是猫和是狗的概率分别是多少，然后根据判断的信心值来构造答案。（只是举例，实际应用中分类会非常多，本质上还是使用计算机的海量存储和高速遍历的基本能力）

包括现在的LLM，其实本质也还是概率，通过大量数据内容和训练，让它“猜”后面的内容是什么，以此实现所谓的“语意理解”，然后再组合不同大小和复杂度的知识库，来实现智能的回答。（所以，可以简单把ChatGPT理解成一个超级大号的世界级知识库应用）

END

版权声明 1 本网站名称：捷鹰AI导航
2 本站永久网址：www.jieyingai.com
3 本站原创内容转载请注明出处，付费内容未经本站授权禁止转载二次发布
4 本站所有内容禁止用于任何非法用途！部分文章、素材、资源软件来自网络，仅供大家学习与参考。如有侵权，请联系站长QQ:1392478547进行删除处理
5 本站投稿禁止发布任何违法内容，如发现将立即封号处理，欢迎举报监督
6 本站附件资源、教程等内容如因时效原因失效或不可用，请联系留言或联系站长及时更新

THE END