LLM 大语言模型定义以及关键技术术语认知

写在前面

我看远山,远山悲悯

大语言模型定义

LLM(Large Language Models)是基于Transformer架构(可以理解为不同寻常的大脑)的深度神经网络,通过海量文本数据训练获得语言理解和生成能力。其核心特征包括:

参数规模达数十亿级别(GPT-3 175B参数)

知识储备惊人,可以理解为脑细胞数量是普通人的千亿倍(1750亿参数),相当于把整个图书馆的书都装进大脑

自回归生成机制(逐词预测)

说话方式像接龙,当它写作文时,就像我们玩词语接龙:先写"今天",然后根据"今天"想"天气",接着根据"今天天气"想"晴朗",逐字逐句生成内容。

注意力机制实现长程依赖建模

特别会抓重点就像我们读小说时,会自动记住关键人物关系(比如注意到"陈平安喜欢宁姚"),它能自动捕捉文字间的深层联系。

涌现能力(Emergent Abilities)

无师自通的学霸,腹有诗书气自华,典型案例:GPT-3在未专门训练情况下通过上下文学习掌握翻译、数学运算等能力,展示出突破性的零样本学习能力。

关键技术术语Transformer架构1. 核心创新:自注意力机制突破序列建模瓶颈2. 关键架构特点

(1)并行化计算架构

(2)编码器-解码器协作

(3)位置编码与多头注意力

3. 典型应用场景

技术价值总结

Transformer 通过自注意力全局建模和并行计算架构,解决了 RNN 的长序列依赖与低效问题,成为大模型时代的核心技术。其模块化设计(编码器/解码器可拆分)和灵活扩展性(如多头注意力),使其在 NLP、CV 等领域实现突破性应用。

语言建模(Language Modeling)核心目标

语言建模的核心是通过学习自然语言的统计规律,建立词序列(token)的概率分布模型,实现基于上下文预测序列中下一个词的能力。

主要方法

自回归语言模型(如GPT,DeepSeek)

掩码语言模型(如BERT)

技术演进

预训练范式:通过大规模无监督预训练(如GPT-3、BERT)学习通用语言表示,再通过微调适配下游任务

预训练范式是当前人工智能领域(尤其是自然语言处理)的核心技术之一。它的核心思想是通过两个阶段的学习,让模型从“通用语言理解”逐步过渡到“特定任务适配”。

分词(Tokenization)

将文本分割成一个个小的单元,即token。比如,“I love apples”这句话可能被分成【“I”“love”“apples”】这三个token,我是中国人被分解成【我,是,中国人】三个 token以便模型进行处理。

子词分词(Byte-Pair Encoding等),遇到"乐高飞船"时,拆成"底座+翅膀+驾驶舱"标准组件,为什么要分词:

嵌入(Embeddings)

嵌入是指将离散token映射为连续向量,高维,捕获语义和语法关系,通过模型训练学习分布,通俗的话讲,就是把token转化为Transformer可以理解的数据

通俗解释:嵌入就像给每个乐高零件贴上"属性条形码" 当AI拿到"color"这个乐高块时,不是直接使用塑料块本身,而是扫描它身上的隐形条形码:

就像每个乐高块的固有指纹或者属性的,颜色代码(决定能拼什么风格的建筑),形状指纹(决定能连接哪些零件),材质DNA(决定适合做飞船还是城堡),比如我需要做一个红色的房子,那么我就会考虑选择所有 红色的乐高零件

嵌入的特点:高维度(如GPT-3使用12,000维),捕获语义/语法关系(相似词向量距离近),通过模型自动学习语义空间分布

通俗解释:

高维度=超能力观察镜

人类看乐高:只能分辨颜色/形状/大小,AI的12,000维"观察镜"能看到:适合做机甲关节的弧度(维度127),与中世纪套装的兼容性(维度582),儿童抓握舒适度评分(维度7048)

自动学习零件属性

初期:AI以为"红色块"只适合做消防车,看多了图纸后发现,红色也能做苹果(维度202→水果关联+0.7),还能做超级英雄披风(维度916→动态感+0.8),类似人类发现回形针除了夹文件,还能当手机支架

捕获语义

当AI看到"硅谷创业公司融资千万美元"时:

"硅谷" → 科技=0.95,美国=0.88,创新=0.93...

"融资" → 金钱=0.97,风险=0.85,增长=0.91...

自动联想到:

这相当于给每个词语装上GPS定位器,让AI在12,000维的语义宇宙中,精确找到它们所在的星座位置!

训练与微调

预训练就像九年义务教育+3年中学,什么都学,掌握文理科基础知识,有认知世界的能力,微调就像读高中,分文理,读大学分专业,最终变成某个领域的打工人(落地应用)

预训练:

用做饭来比喻:预训练就像是大厨的基本功训练,让厨师学徒先吃遍全国各种菜系(通用文本),掌握切菜、火候、调味的基础规律(语言规律)。这时候他不懂做具体菜品,但能凭经验判断"西红柿炒蛋应该先放蛋"这类常识(基础理解能力)。

微调:

微调,开餐厅前的专项培训,比如要开川菜馆:先给学徒看10本川菜菜谱(领域数据),记住豆瓣酱和花椒的使用场景(领域知识),再手把手教他做宫保鸡丁(任务训练),直到他能稳定复刻这个菜(任务适配),最终他既保留通用厨艺,又成为川菜专家(领域专家模型)

预测生成

预测生成(Autoregressive Generation)是指大型语言模型(LLM)基于已输入的上下文逐词生成后续内容的过程。

预测过程:

输入序列编码

自回归生成(逐token预测)

采样策略(贪婪搜索/核采样等)

限制条件:受上下文窗口约束

还是使用用做菜流程比喻预测生成,连限制条件都容易记:预测生成,大厨现炒客制化菜品

看订单(输入编码):客人说"微辣的水煮牛肉加莴笋",大厨先拆解需求(把文本转成向量)

颠勺式推进(自回归生成):

调味自由度(采样策略):

限制:厨房工作台太小(上下文窗口)

就像厨师不会无限度记住两小时前的订单细节,模型也无法突破上下文窗口的记忆极限

上下文窗口(Context Window)

定义:模型单次处理的最大token数,直接影响其对长文本的连贯理解和多轮对话的记忆能力

优化技术:

大模型的“上下文窗口”就像一个人同时能记住的对话内容范围。举个例子,假设你在读一本小说,可以理解为AI的“短期记忆容量”。比如GPT-4能记住约32页书的内容(32K token),而DeepSeek-V3能记住128页(128K token),Claude 3更是能记住整本中篇小说(200K token)。这直接影响AI能否连贯分析长文章,或者在聊天时不忘记你10分钟前提过的事情。

技术优化类比:

FlashAttention:像快速翻书时用荧光笔标重点,只关注关键部分,既快又省脑力(减少计算量)。

稀疏注意力:类似读书时跳着看目录和章节标题,忽略无关段落(只处理部分内容)。

位置编码改进:相当于给书本每页编号+贴彩色标签,防止记混页数顺序(解决长文本位置错乱问题)。比如DeepSeek用“分段页码法”,前一半页码正常标,后一半自动扩展,还能无限续写。

扩展法则(Scaling Laws)

扩展法则三要素:

参数量(N)

训练数据量(D)

计算量(FLOPs)

扩展法则的三要素可以想象成做菜:

参数量(N):相当于厨师的厨艺水平。就像经验丰富的厨师能处理更多复杂菜品,模型参数越多,"经验"越丰富,能处理更复杂的任务。

训练数据量(D):相当于食材的数量。要做一锅够百人吃的佛跳墙,食材必须足够多,否则再好的厨师也会"巧妇难为无米之炊"。

计算量(FLOPs):相当于厨具的性能。用柴火灶做菜可能需要10小时,但用高压锅1小时就能完成,计算量就是这口"锅"的做饭效率。

Chinchilla法则(N×20≈D可以理解为厨师和食材的黄金配比。假设你请了70位厨师(70B参数),按照法则需要准备1.4吨食材(1.4T tokens),也就是每位厨师分配20公斤食材。这背后的逻辑是:

这个法则颠覆了以往"厨师越多越好"的认知。比如过去大家觉得1750亿参数的GPT-3(相当于175位厨师),用3000亿token(相当于1.7吨食材)已经很多,但Chinchilla指出应该配3.5万亿token(35吨食材),相当于每位厨师分到200公斤——这说明之前的训练其实让厨师们"饿着肚子工作"。

涌现能力(Emergent Abilities)

用苏轼的一句诗最能表达腹有诗书气自华。涌现能力很容易理解,不多讲

涌现能力表现:

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享