写在前面
我看远山,远山悲悯
大语言模型定义
LLM(Large Language Models)是基于Transformer架构(可以理解为不同寻常的大脑)的深度神经网络,通过海量文本数据训练获得语言理解和生成能力。其核心特征包括:
参数规模达数十亿级别(GPT-3 175B参数)
知识储备惊人,可以理解为脑细胞数量是普通人的千亿倍(1750亿参数),相当于把整个图书馆的书都装进大脑
自回归生成机制(逐词预测)
说话方式像接龙,当它写作文时,就像我们玩词语接龙:先写"今天",然后根据"今天"想"天气",接着根据"今天天气"想"晴朗",逐字逐句生成内容。
注意力机制实现长程依赖建模
特别会抓重点就像我们读小说时,会自动记住关键人物关系(比如注意到"陈平安喜欢宁姚"),它能自动捕捉文字间的深层联系。
涌现能力(Emergent Abilities)
无师自通的学霸,腹有诗书气自华,典型案例:GPT-3在未专门训练情况下通过上下文学习掌握翻译、数学运算等能力,展示出突破性的零样本学习能力。
关键技术术语Transformer架构1. 核心创新:自注意力机制突破序列建模瓶颈2. 关键架构特点
(1)并行化计算架构
(2)编码器-解码器协作
(3)位置编码与多头注意力
3. 典型应用场景
技术价值总结
Transformer 通过自注意力全局建模和并行计算架构,解决了 RNN 的长序列依赖与低效问题,成为大模型时代的核心技术。其模块化设计(编码器/解码器可拆分)和灵活扩展性(如多头注意力),使其在 NLP、CV 等领域实现突破性应用。
语言建模(Language Modeling)核心目标
语言建模的核心是通过学习自然语言的统计规律,建立词序列(token)的概率分布模型,实现基于上下文预测序列中下一个词的能力。
主要方法
自回归语言模型(如GPT,DeepSeek)
掩码语言模型(如BERT)
技术演进
预训练范式:通过大规模无监督预训练(如GPT-3、BERT)学习通用语言表示,再通过微调适配下游任务
预训练范式是当前人工智能领域(尤其是自然语言处理)的核心技术之一。它的核心思想是通过两个阶段的学习,让模型从“通用语言理解”逐步过渡到“特定任务适配”。
分词(Tokenization)
将文本分割成一个个小的单元,即token。比如,“I love apples”这句话可能被分成【“I”“love”“apples”】这三个token,我是中国人被分解成【我,是,中国人】三个 token以便模型进行处理。
子词分词(Byte-Pair Encoding等),遇到"乐高飞船"时,拆成"底座+翅膀+驾驶舱"标准组件,为什么要分词:
嵌入(Embeddings)
嵌入是指将离散token映射为连续向量,高维,捕获语义和语法关系,通过模型训练学习分布,通俗的话讲,就是把token转化为Transformer可以理解的数据
通俗解释:嵌入就像给每个乐高零件贴上"属性条形码" 当AI拿到"color"这个乐高块时,不是直接使用塑料块本身,而是扫描它身上的隐形条形码:
就像每个乐高块的固有指纹或者属性的,颜色代码(决定能拼什么风格的建筑),形状指纹(决定能连接哪些零件),材质DNA(决定适合做飞船还是城堡),比如我需要做一个红色的房子,那么我就会考虑选择所有 红色的乐高零件
嵌入的特点:高维度(如GPT-3使用12,000维),捕获语义/语法关系(相似词向量距离近),通过模型自动学习语义空间分布
通俗解释:
高维度=超能力观察镜
人类看乐高:只能分辨颜色/形状/大小,AI的12,000维"观察镜"能看到:适合做机甲关节的弧度(维度127),与中世纪套装的兼容性(维度582),儿童抓握舒适度评分(维度7048)
自动学习零件属性
初期:AI以为"红色块"只适合做消防车,看多了图纸后发现,红色也能做苹果(维度202→水果关联+0.7),还能做超级英雄披风(维度916→动态感+0.8),类似人类发现回形针除了夹文件,还能当手机支架
捕获语义
当AI看到"硅谷创业公司融资千万美元"时:
"硅谷" → 科技=0.95,美国=0.88,创新=0.93...
"融资" → 金钱=0.97,风险=0.85,增长=0.91...
自动联想到:
这相当于给每个词语装上GPS定位器,让AI在12,000维的语义宇宙中,精确找到它们所在的星座位置!
训练与微调
预训练就像九年义务教育+3年中学,什么都学,掌握文理科基础知识,有认知世界的能力,微调就像读高中,分文理,读大学分专业,最终变成某个领域的打工人(落地应用)
预训练:
用做饭来比喻:预训练就像是大厨的基本功训练,让厨师学徒先吃遍全国各种菜系(通用文本),掌握切菜、火候、调味的基础规律(语言规律)。这时候他不懂做具体菜品,但能凭经验判断"西红柿炒蛋应该先放蛋"这类常识(基础理解能力)。
微调:
微调,开餐厅前的专项培训,比如要开川菜馆:先给学徒看10本川菜菜谱(领域数据),记住豆瓣酱和花椒的使用场景(领域知识),再手把手教他做宫保鸡丁(任务训练),直到他能稳定复刻这个菜(任务适配),最终他既保留通用厨艺,又成为川菜专家(领域专家模型)
预测生成
预测生成(Autoregressive Generation)是指大型语言模型(LLM)基于已输入的上下文逐词生成后续内容的过程。
预测过程:
输入序列编码
自回归生成(逐token预测)
采样策略(贪婪搜索/核采样等)
限制条件:受上下文窗口约束
还是使用用做菜流程比喻预测生成,连限制条件都容易记:预测生成,大厨现炒客制化菜品
看订单(输入编码):客人说"微辣的水煮牛肉加莴笋",大厨先拆解需求(把文本转成向量)
颠勺式推进(自回归生成):
调味自由度(采样策略):
限制:厨房工作台太小(上下文窗口)
就像厨师不会无限度记住两小时前的订单细节,模型也无法突破上下文窗口的记忆极限
上下文窗口(Context Window)
定义:模型单次处理的最大token数,直接影响其对长文本的连贯理解和多轮对话的记忆能力
优化技术:
大模型的“上下文窗口”就像一个人同时能记住的对话内容范围。举个例子,假设你在读一本小说,可以理解为AI的“短期记忆容量”。比如GPT-4能记住约32页书的内容(32K token),而DeepSeek-V3能记住128页(128K token),Claude 3更是能记住整本中篇小说(200K token)。这直接影响AI能否连贯分析长文章,或者在聊天时不忘记你10分钟前提过的事情。
技术优化类比:
FlashAttention:像快速翻书时用荧光笔标重点,只关注关键部分,既快又省脑力(减少计算量)。
稀疏注意力:类似读书时跳着看目录和章节标题,忽略无关段落(只处理部分内容)。
位置编码改进:相当于给书本每页编号+贴彩色标签,防止记混页数顺序(解决长文本位置错乱问题)。比如DeepSeek用“分段页码法”,前一半页码正常标,后一半自动扩展,还能无限续写。
扩展法则(Scaling Laws)
扩展法则三要素:
参数量(N)
训练数据量(D)
计算量(FLOPs)
扩展法则的三要素可以想象成做菜:
参数量(N):相当于厨师的厨艺水平。就像经验丰富的厨师能处理更多复杂菜品,模型参数越多,"经验"越丰富,能处理更复杂的任务。
训练数据量(D):相当于食材的数量。要做一锅够百人吃的佛跳墙,食材必须足够多,否则再好的厨师也会"巧妇难为无米之炊"。
计算量(FLOPs):相当于厨具的性能。用柴火灶做菜可能需要10小时,但用高压锅1小时就能完成,计算量就是这口"锅"的做饭效率。
Chinchilla法则(N×20≈D可以理解为厨师和食材的黄金配比。假设你请了70位厨师(70B参数),按照法则需要准备1.4吨食材(1.4T tokens),也就是每位厨师分配20公斤食材。这背后的逻辑是:
这个法则颠覆了以往"厨师越多越好"的认知。比如过去大家觉得1750亿参数的GPT-3(相当于175位厨师),用3000亿token(相当于1.7吨食材)已经很多,但Chinchilla指出应该配3.5万亿token(35吨食材),相当于每位厨师分到200公斤——这说明之前的训练其实让厨师们"饿着肚子工作"。
涌现能力(Emergent Abilities)
用苏轼的一句诗最能表达腹有诗书气自华。涌现能力很容易理解,不多讲
涌现能力表现: