AI大模型高考成绩出炉：通义千问称霸，但数学成了集体滑铁卢-JieYingAI捷鹰AI

最近，上海人工智能实验室用他们的司南评测体系OpenCompass对7个大模型进行了“语数外”全卷高考测试。其中参考“学生”包括：

·Mixtral 8x22B：法国AI创业公司Mistral于2024年4月17日开源的对话模型。

·Yi-1.5-34B：零一万物公司于2024年5月12日开源的Yi-1.5系列最大的模型。

·GLM-4-9B：智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列的开源版本。

·InternLM2-20B-WQX：上海人工智能实验室于2024年6月4日开源的书生·浦语2.0系列文曲星大语言模型。

·Qwen2-57B：阿里巴巴于2024年6月6日开源的Qwen2系列MoE对话模型。

·Qwen2-72B：阿里巴巴于2024年6月6日开源的72B稠密模型。

结果一出来，阿里的通义千问2-72B以303分的成绩夺冠，OpenAI的GPT-4o紧随其后，拿了296分，而上海人工智能实验室自家的书生·浦语2.0也不甘示弱，排在第三。

高考出分啦！恭喜案例Qwen2-72B夺冠！

这三位“学霸”的得分率都超过了70%，实力杠杠的。不过，法国初创公司Mistral的大模型表现就有点惨淡了，直接垫底，看来法国队不光在世界杯容易掉链子，在AI高考上也得加把劲儿。

这次评测的参赛选手阵容堪称豪华，除了阿里巴巴、零一万物、智谱AI、上海人工智能实验室这些本土巨头，还包括了法国Mistral的开源模型和OpenAI的闭源模型GPT-4o。为了确保评测的公平性，实验室特别强调，由于无法确定闭源模型的更新时间，GPT-4o仅作为参考，并未纳入商用闭源模型。同时，所有参赛模型都在高考前（2024年4月-6月）开源，防止了“刷题作弊”的可能。

语文：现代文理解OK，文言文差距大

语文老师们发现，这些大模型在现代文阅读理解方面表现得还不错。但一遇到文言文，模型之间的差距就明显了。有些模型还行，有些就差强人意了。至于作文，大模型写出来的东西更像是问答题，虽然针对性强，但缺乏修饰，根本没有人类考生那种举例论证、引用论证、名人名言等手法。

语文优胜者：Qwen2

而且，多数模型根本搞不清“本体”“喻体”“暗喻”等语文概念。对语言中的一些“潜台词”，大模型也是一头雾水，显然还得多加修炼。

数学：答案对了但过程错了

数学这门课就更是大模型们的滑铁卢了。老师们发现，大模型的主观题回答那叫一个凌乱，解题过程甚至会出现错误但最终答案居然对了的情况。模型的公式记忆能力不错，但一到具体解题环节就不灵活了，完全不像人类考生那样可以举一反三。

数学优胜者：InternLM2

英语：整体不错，但题型适应能力有待提高

在英语方面，大模型的整体表现还是挺令人满意的。但是，有些模型因为不适应题型，在七选五和完形填空这些题型上得分率较低。而且，大模型的英语作文普遍存在超出字数限制而被扣分的情况，这跟人类考生因为字数不够而扣分形成了鲜明对比。

英语优胜者：GPT-4o

结语

这些成绩暴露出一个明显的问题：大模型在复杂推理能力方面还存在不足。要知道，金融、工业等高要求场景的落地，复杂推理可是关键能力，大模型未来要想在这些领域大展拳脚，还得好好补补数学这门课。

总的来说，这次评测就像是一场AI的“摸底考”，让我们看到了它们的强项和短板。大模型在语文和英语上确实有两把刷子，但数学这块短板也太明显了点。未来，要想在复杂推理上有所突破，AI们恐怕还得多费点心思，争取早日攻克数学这个难关。

AI 研讨群

往期推荐

版权声明 1 本网站名称：捷鹰AI导航
2 本站永久网址：www.jieyingai.com
3 本站原创内容转载请注明出处，付费内容未经本站授权禁止转载二次发布
4 本站所有内容禁止用于任何非法用途！部分文章、素材、资源软件来自网络，仅供大家学习与参考。如有侵权，请联系站长QQ:1392478547进行删除处理
5 本站投稿禁止发布任何违法内容，如发现将立即封号处理，欢迎举报监督
6 本站附件资源、教程等内容如因时效原因失效或不可用，请联系留言或联系站长及时更新

THE END