1.引言
2022年底,ChatGPT的发布,引发了大语言模型的关注,场面非常爆炸性!但其实,距离大语言模型的诞生,已经过去了4年,早在2018年OpenAI就发布了第一个生成式预训练模型GPT-1,参数量1.17亿;同一年谷歌发布参数有3亿的BERT模型,标志着大模型时代的到来。这里,我们看出来,大模型的大,某种意义上表示着参数的规模,当然参数的规模,某种意义上表达了模型的能力。
在往前追溯,人工智能的发展已有将近70年的历史,直到今天此时此刻,让我们普通人觉得科技于生活如此之近,这是好事!一个技术,能影响普罗大众的日常生活,正是说明它的价值点到来以及成本降低到可接受的程度。就好比,芯片将计算边际成本降到了零,互联网将分发的边际成本降到零,那么大模型AIGC有望将创作的边际成本降到零。AIGC的进一步发展,终于是让人工智能告别”有多少人工,即有多少智能“的时代。
国内大模型,集中在2023年由百度发布文心一言大模型开始,拉开了百模大战的序幕。随后阿里通义,华为盘古,讯飞星火,腾讯混元,字节豆包,百川,智谱,月之暗面及正在势头的DeepSeek,好一幅”群模乱舞“!
于此,作为一个技术人,我自己也在做一些Agent的事情,希望能从技术人的角度,结合日常生活化的方向,做一些关于这个方向的思考和分享,系列内容关注:LLM+Agent应用。与大家共同交流共勉!
2.什么是大语言模型
AI大模型指的是拥有亿级以上参数的深度学习模型,深度学习延申至机器学习。从应用场景角度去看,可以分类为通用大模型和垂直大模型,垂直大模型可以进一步细分为行业大模型和垂直场景大模型。
怎么去区别看待通用大模型和垂直大模型?举个例子:
关于大模型,我们还需要知道它的基础能力域,包含:理解,数学,编码,生成,推理和多模态。
3.大语言模型发展史
大模型发展历程,可以追溯到人工智能起点时刻开始,时间线如下:
4.大语言模型产业图谱
2023年中国AIGC产业图谱:
2024年中国AIGC产业图谱:
5.大语言模型的不足和发展趋势及挑战5.1.大模型不足
当然,大模型不是万能的,至少在当下及很长的一段时间不能万能,这是从基因因素决定的:
关于以上不足,会逐步有相关解决方案,后续到分享Agent内容的时候,我们详细来看。
5.2.发展趋势
2025年大模型发展的一些趋势向产品化,商业化,产业化迈进,向降本增效提质迈进。主要有几个因素,从去年开始关注各大模型上游玩家的模型服务,和相关LLMOps平台,以及具体的AI应用平台发现:
5.3.发展挑战
大模型发展的挑战,从上游厂家来看,是成本和基础设施能力的建设。就大模型训练成本来说,不是普通玩家能玩得转的。比如GPT-4训练成本7800万美元,训练时长90-100天;最近火爆的DeepSeek号称做到了极致的性价比,训练成本600万美元,训练时长2-3个月。这些都不是普通玩家能玩的。
从不同的维度来看相关挑战: