阿里云发布通义千问2.5,中文性能全面赶超GPT-4-Turbo

国内很多网友觉得,我们的AI科技落后美国很多,但真相果真如此吗?

众所周知,AI大模型领域主要分为开源、闭源两大阵营,而近日国内大厂阿里云,在通义大模型发布一周年之际,接连在两大阵营报捷:通义千问2.5在中文语境下模型性能全面赶超GPT-4-Turbo,同时,最新开源的Qwen1.5-110B也击败 Llama-3-70B ,登顶 Open LLM Leaderboard。

图片[1]-阿里云发布通义千问2.5,中文性能全面赶超GPT-4-Turbo-JieYingAI捷鹰AI

据了解,通义千问2.5于今年5月9日发布,采用的是阿里云自研架构,并通过海量的数据训练,使模型的准确性和核心性能得到显著提升。

相比前一版本,通义千问2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%;相比海外以GPT-4为代表的超大参数量闭源模型,通义千问2.5也在中文语境的文本理解、文本生成、知识问答等众多方面实现了赶超。

在跑分和排行榜上,通义千问也是第一个在权威基准OpenCompass上追平了GPT-4 Turbo得分的国产大模型。

图片[2]-阿里云发布通义千问2.5,中文性能全面赶超GPT-4-Turbo-JieYingAI捷鹰AI

不过,通义千问的革新意义不仅体现在硬核性能上,还体现在技术普惠上。

要知道,由于AI算力的高成本,不管是国内的WPS AI 、文心一言会员,还是国外的Claude Pro、Gemini Advanced、 ChatGPT Plus(GPT-4)等服务,都会对C端用户收取不少的费用。而通义千问,不仅对C端用户主打全功能“免费”,还坚持走开源路线,努力降低模型使用门槛,让国内海量中小企业更早、更快地用上前沿技术。

截至目前,通义千问已开源7B、14B、70B、VK、110B等全尺寸、多模态的模型,供不同需求开发者选择。

图片[3]-阿里云发布通义千问2.5,中文性能全面赶超GPT-4-Turbo-JieYingAI捷鹰AI

最新宣布开源的Qwen1.5-110B,还在MMLU、TheoremQA、ARC-C、GSM8K、MATH 和 HumanEval等基准测评中超越了Meta的Llama-3-70B模型。在HuggingFace推出的开源大模型排行榜Open LLM Leaderboard上,Qwen1.5-110B冲上榜首,击败Llama-3-70B,成为了最强开源大模型。

图片[4]-阿里云发布通义千问2.5,中文性能全面赶超GPT-4-Turbo-JieYingAI捷鹰AI

业内有一句话,“2023年是AI技术发展元年,2024是AI技术应用元年”,而通义千问作为国产大模型的翘楚之一,也正在加速落地。

据官方数据,目前,通义大模型已进入PC、手机、汽车、航空、天文、矿业、教育、医疗、餐饮、游戏、文旅等领域,通过阿里云服务的企业数量超过9万、通过钉钉服务的企业数量也突破220万大关,成为了国内B端领域中最受欢迎的大模型。

与此同时,海内外大量中小企业和开发者以下载开源模型的方式使用通义,在HuggingFace、魔搭ModelScope等开源社区,通义开源大模型的累计下载量超过了700万。

历经一年多追赶,国产大模型终于达到了全球第一梯队,甚至有望夺取AI领域的霸主地位,同时让人期待的是:随着通义千问等大模型的应用落地,AI能否给我们的生活带来真正颠覆性的改变,让电影中的科幻场景在近几年内成为现实?

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发
头像
来说点什么吧!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容