AI大模型高考成绩出炉:通义千问称霸,但数学成了集体滑铁卢

最近,上海人工智能实验室用他们的司南评测体系OpenCompass对7个大模型进行了“语数外”全卷高考测试。其中参考“学生”包括:

·Mixtral 8x22B:法国AI创业公司Mistral于2024年4月17日开源的对话模型。

·Yi-1.5-34B:零一万物公司于2024年5月12日开源的Yi-1.5系列最大的模型。

·GLM-4-9B:智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列的开源版本。

·InternLM2-20B-WQX:上海人工智能实验室于2024年6月4日开源的书生·浦语2.0系列文曲星大语言模型。

·Qwen2-57B:阿里巴巴于2024年6月6日开源的Qwen2系列MoE对话模型。

·Qwen2-72B:阿里巴巴于2024年6月6日开源的72B稠密模型。

图片[1]-AI大模型高考成绩出炉:通义千问称霸,但数学成了集体滑铁卢-JieYingAI捷鹰AI

结果一出来,阿里的通义千问2-72B以303分的成绩夺冠,OpenAI的GPT-4o紧随其后,拿了296分,而上海人工智能实验室自家的书生·浦语2.0也不甘示弱,排在第三。

图片[2]-AI大模型高考成绩出炉:通义千问称霸,但数学成了集体滑铁卢-JieYingAI捷鹰AI

高考出分啦!恭喜案例Qwen2-72B夺冠!

这三位“学霸”的得分率都超过了70%,实力杠杠的。不过,法国初创公司Mistral的大模型表现就有点惨淡了,直接垫底,看来法国队不光在世界杯容易掉链子,在AI高考上也得加把劲儿。

这次评测的参赛选手阵容堪称豪华,除了阿里巴巴、零一万物、智谱AI、上海人工智能实验室这些本土巨头,还包括了法国Mistral的开源模型和OpenAI的闭源模型GPT-4o。为了确保评测的公平性,实验室特别强调,由于无法确定闭源模型的更新时间,GPT-4o仅作为参考,并未纳入商用闭源模型。同时,所有参赛模型都在高考前(2024年4月-6月)开源,防止了“刷题作弊”的可能。

语文:现代文理解OK,文言文差距大

语文老师们发现,这些大模型在现代文阅读理解方面表现得还不错。但一遇到文言文,模型之间的差距就明显了。有些模型还行,有些就差强人意了。至于作文,大模型写出来的东西更像是问答题,虽然针对性强,但缺乏修饰,根本没有人类考生那种举例论证、引用论证、名人名言等手法。

图片[3]-AI大模型高考成绩出炉:通义千问称霸,但数学成了集体滑铁卢-JieYingAI捷鹰AI

语文优胜者:Qwen2

而且,多数模型根本搞不清“本体”“喻体”“暗喻”等语文概念。对语言中的一些“潜台词”,大模型也是一头雾水,显然还得多加修炼。

数学:答案对了但过程错了

数学这门课就更是大模型们的滑铁卢了。老师们发现,大模型的主观题回答那叫一个凌乱,解题过程甚至会出现错误但最终答案居然对了的情况。模型的公式记忆能力不错,但一到具体解题环节就不灵活了,完全不像人类考生那样可以举一反三。

图片[4]-AI大模型高考成绩出炉:通义千问称霸,但数学成了集体滑铁卢-JieYingAI捷鹰AI

数学优胜者:InternLM2

英语:整体不错,但题型适应能力有待提高

在英语方面,大模型的整体表现还是挺令人满意的。但是,有些模型因为不适应题型,在七选五和完形填空这些题型上得分率较低。而且,大模型的英语作文普遍存在超出字数限制而被扣分的情况,这跟人类考生因为字数不够而扣分形成了鲜明对比。

图片[5]-AI大模型高考成绩出炉:通义千问称霸,但数学成了集体滑铁卢-JieYingAI捷鹰AI

英语优胜者:GPT-4o

结 语

这些成绩暴露出一个明显的问题:大模型在复杂推理能力方面还存在不足。要知道,金融、工业等高要求场景的落地,复杂推理可是关键能力,大模型未来要想在这些领域大展拳脚,还得好好补补数学这门课。

总的来说,这次评测就像是一场AI的“摸底考”,让我们看到了它们的强项和短板。大模型在语文和英语上确实有两把刷子,但数学这块短板也太明显了点。未来,要想在复杂推理上有所突破,AI们恐怕还得多费点心思,争取早日攻克数学这个难关。

AI 研 讨 群

图片[6]-AI大模型高考成绩出炉:通义千问称霸,但数学成了集体滑铁卢-JieYingAI捷鹰AI

往期推荐

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享