春节DeepSeek/通义千问神仙打架!最新开源大语言模型汇总!

图片[1]-春节DeepSeek/通义千问神仙打架!最新开源大语言模型汇总!-JieYingAI捷鹰AI

春节期间的AI 圈里简直是中美AI神仙打架!

DeepSeek 、阿里、openAI三家AI大厂集体放大招,功能一个比一个狠,还全部开源!

接下来小编将根据开源时间线整合汇总,让大家一篇文章了解春节期间AI圈大事件!

2025年1月27日

Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini!

谈到大模型的“国货之光”,阿里云Qwen这边春节前夕也有新动作!

首次将开源Qwen模型的上下文扩展到1M长度。具体而言,这次的新模型有两个“杯型”:

它们在处理长文本任务中都已经实现稳定超越GPT-4o-mini,并且在处理百万级别长文本输入时可实现近7倍的提速!

图片[2]-春节DeepSeek/通义千问神仙打架!最新开源大语言模型汇总!-JieYingAI捷鹰AI

百万Tokens长文本,可换算成10本长篇小说、150小时演讲稿或3万行代码。

两个月前, Qwen2.5-Turbo 升级了百万Tokens的上下文输入能力,广受开发者和企业欢迎。如今,开源社区可基于全新的 Qwen2.5-1M 系列模型,进行长篇小说或多篇学术论文的解析,或是探索仓库级代码的分析和升级。

在上下文长度为100万 Tokens 的大海捞针(Passkey Retrieval)任务中,Qwen2.5-1M 系列模型能够准确地从 1M 长度的文档中检索出隐藏信息,其中仅有7B模型出现了少量错误。

图片[3]-春节DeepSeek/通义千问神仙打架!最新开源大语言模型汇总!-JieYingAI捷鹰AI

github地址:

HuggingFace体验地址:

2025年1月28日

DeepSeek深夜发布多模态大模型,图像性能跑分力压OpenAI竞品!

除夕深夜时分,DeepSeek 宣布开源一个名叫 “Janus-Pro” 的多模态模型,既能识别图像又能生成图像,号称“同时朝过去和未来看去”。这让不少人惊呼:DeepSeek 又来搞事情了?

DeepSeek工程师们在除夕时上传了Janus Pro 7B和1.5B模型。

它既能识别图片的内容(物体、文字、地标,甚至连动漫角色都行),还能像 Midjourney、DALL·E 3 那样根据提示生成图片。

图片[4]-春节DeepSeek/通义千问神仙打架!最新开源大语言模型汇总!-JieYingAI捷鹰AI

DeepSeek 特地选了在除夕夜前抛出这个“多模态大模型”,目的很明显:不仅搞文本大模型,还要把视觉生成与认知玩起来。

而这次 Janus-Pro 再度“开源+免费”,宣示着他们不走闭源路线,而是通过让更多用户与开发者参与、共同迭代来获得先发优势和技术沉淀。

图片[5]-春节DeepSeek/通义千问神仙打架!最新开源大语言模型汇总!-JieYingAI捷鹰AI

技术亮点

创新的自回归框架Janus-Pro-7B采用了一种新颖的自回归框架,将多模态理解和生成能力统一在一个模型中。

高效的视觉编码器在多模态理解任务中,Janus-Pro采用SigLIP-L作为视觉编码器,支持高达384x384像素的图像输入。

大规模参数与优化训练Janus-Pro-7B的参数规模达到70亿,是其前身Janus的7倍。

GitHub地址:

模型地址:

2025年1月29日

阿里春节放大招!发布Qwen2.5-Max,性能反超DeepSeek V3!

大年初一阿里放大招!通义千问Qwen2.5-Max硬核登场,与同为MoE架构的DeepSeek V3上演巅峰对决!

图片[6]-春节DeepSeek/通义千问神仙打架!最新开源大语言模型汇总!-JieYingAI捷鹰AI

Qwen2.5-Max具有多种优势:

高效便捷:相比传统工具,Qwen2.5-Max增强了AI的响应速度,让用户不再遭受等待的烦恼,瞬时获取所需信息。

深度学习能力:该模型采用最新的神经网络技术,能处理复杂的文本问题,帮助用户解决数学、编程等方面的难题。

操作简单:不论您是AI新手,还是行业专家,Qwen2.5-Max都能提供清晰的操作指导,让使用过程轻松愉快。

适用广泛:无论是学生、职场人士,亦或者研究者,都能找到适合自己的应用场景,大大提升工作效率。

将 Qwen2.5-Max 与业界领先的模型(包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet)的性能结果进行对比数据,让网友直呼"卷疯了"!

图片[7]-春节DeepSeek/通义千问神仙打架!最新开源大语言模型汇总!-JieYingAI捷鹰AI

在基座模型的对比中,由于无法访问 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型的基座模型,于是将 Qwen2.5-Max 与目前领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B,以及同样位列开源稠密模型前列的 Qwen2.5-72B 进行了对比。对比结果如下图所示。

图片[8]-春节DeepSeek/通义千问神仙打架!最新开源大语言模型汇总!-JieYingAI捷鹰AI

Qwen2.5-Max 的基座模型在大多数基准测试中都展现出了显著的优势。

Github地址:

x/

2025年2月4日

OpenAI 发布Deep Research ,不到24小时开源复现项目疯狂来袭!

春季期间,OpenAI 又发新产品了,这次是面向深度研究领域的智能体产品 ——「Deep Research」。

图片[9]-春节DeepSeek/通义千问神仙打架!最新开源大语言模型汇总!-JieYingAI捷鹰AI

而在一天之内,已经出现了多个Deep Research开源复现项目。让我们一起来看看吧!

一、Open Deep Research

Open Deep Research 是一个 AI 智能体,可以对大量的 web 数据进行推理,该方法没有使用 o3 的微调版本,而是使用了爬虫工具 Firecrawl 的提取 + 搜索功能以及推理模型来深入研究网络。

图片[10]-春节DeepSeek/通义千问神仙打架!最新开源大语言模型汇总!-JieYingAI捷鹰AI

Open Deep Research背后默认的模型为 gpt-4o,如果想换个其他模型使用也是可以的,只需几行代码即可切换为 Anthropic、Cohere 等发布的模型。

项目地址:

二、OpenDeepResearcher

OpenDeepResearcher 是一个开源的自动化深度研究工具,旨在通过人工智能技术提升研究效率。该项目由 mshumer 开发,托管在 GitHub 上。

图片[11]-春节DeepSeek/通义千问神仙打架!最新开源大语言模型汇总!-JieYingAI捷鹰AI

OpenDeepResearcher 利用多种服务和技术,包括 SERPAPI、Jina 和 OpenRouter,来执行谷歌搜索、网页内容提取和上下文分析。其核心功能是通过迭代研究循环,不断优化搜索查询,直到系统确信已收集到所有必要的信息。该工具还支持异步处理、重复过滤和 LLM 驱动的决策,确保研究过程高效且全面。

GitHub地址:

三、node-DeepResearch

node-DeepResearch是由 Jina AI CEO 肖涵(Han Xiao)创建。

该项目使用 brave进行搜索,在 nodejs 运行环境中,使用谷歌 gemini-flash 和 jina reader(Jina AI 推出的开源工具,将互联网上的 HTML 网页内容转换为适合 LLM 处理的纯文本格式)进行了复现。

它这个实现的原理很简单,就是在一个循环中进行搜索、阅读和推理,直到找到答案。

图片[12]-春节DeepSeek/通义千问神仙打架!最新开源大语言模型汇总!-JieYingAI捷鹰AI

项目地址:

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
Time and experience heals pain.
时间和经历会抚平一切伤痛