LLM 大语言模型定义以及关键技术术语认知-JieYingAI捷鹰AI

写在前面

我看远山，远山悲悯

大语言模型定义

LLM（Large Language Models）是基于Transformer架构(可以理解为不同寻常的大脑)的深度神经网络，通过海量文本数据训练获得语言理解和生成能力。其核心特征包括：

参数规模达数十亿级别（GPT-3 175B参数）

知识储备惊人，可以理解为脑细胞数量是普通人的千亿倍（1750亿参数），相当于把整个图书馆的书都装进大脑

自回归生成机制（逐词预测）

说话方式像接龙,当它写作文时，就像我们玩词语接龙：先写"今天"，然后根据"今天"想"天气"，接着根据"今天天气"想"晴朗"，逐字逐句生成内容。

注意力机制实现长程依赖建模

特别会抓重点就像我们读小说时，会自动记住关键人物关系（比如注意到"陈平安喜欢宁姚"），它能自动捕捉文字间的深层联系。

涌现能力（Emergent Abilities）

无师自通的学霸，腹有诗书气自华，典型案例：GPT-3在未专门训练情况下通过上下文学习掌握翻译、数学运算等能力，展示出突破性的零样本学习能力。

关键技术术语Transformer架构1. 核心创新：自注意力机制突破序列建模瓶颈2. 关键架构特点

（1）并行化计算架构

（2）编码器-解码器协作

（3）位置编码与多头注意力

3. 典型应用场景

技术价值总结

Transformer 通过自注意力全局建模和并行计算架构，解决了 RNN 的长序列依赖与低效问题，成为大模型时代的核心技术。其模块化设计（编码器/解码器可拆分）和灵活扩展性（如多头注意力），使其在 NLP、CV 等领域实现突破性应用。

语言建模（Language Modeling）核心目标

语言建模的核心是通过学习自然语言的统计规律，建立词序列(token)的概率分布模型，实现基于上下文预测序列中下一个词的能力。

主要方法

自回归语言模型（如GPT，DeepSeek）

掩码语言模型（如BERT）

技术演进

预训练范式：通过大规模无监督预训练（如GPT-3、BERT）学习通用语言表示，再通过微调适配下游任务

预训练范式是当前人工智能领域（尤其是自然语言处理）的核心技术之一。它的核心思想是通过两个阶段的学习，让模型从“通用语言理解”逐步过渡到“特定任务适配”。

分词（Tokenization）

将文本分割成一个个小的单元，即token。比如，“I love apples”这句话可能被分成【“I”“love”“apples”】这三个token，我是中国人被分解成【我，是，中国人】三个 token以便模型进行处理。

子词分词（Byte-Pair Encoding等）,遇到"乐高飞船"时，拆成"底座+翅膀+驾驶舱"标准组件，为什么要分词：

嵌入（Embeddings）

嵌入是指将离散token映射为连续向量，高维，捕获语义和语法关系，通过模型训练学习分布，通俗的话讲，就是把token转化为Transformer可以理解的数据

通俗解释：嵌入就像给每个乐高零件贴上"属性条形码" 当AI拿到"color"这个乐高块时，不是直接使用塑料块本身，而是扫描它身上的隐形条形码：

就像每个乐高块的固有指纹或者属性的,颜色代码（决定能拼什么风格的建筑），形状指纹（决定能连接哪些零件），材质DNA（决定适合做飞船还是城堡），比如我需要做一个红色的房子，那么我就会考虑选择所有红色的乐高零件

嵌入的特点：高维度（如GPT-3使用12,000维）,捕获语义/语法关系（相似词向量距离近）,通过模型自动学习语义空间分布

通俗解释：

高维度=超能力观察镜

人类看乐高：只能分辨颜色/形状/大小,AI的12,000维"观察镜"能看到：适合做机甲关节的弧度（维度127）,与中世纪套装的兼容性（维度582）,儿童抓握舒适度评分（维度7048）

自动学习零件属性

初期：AI以为"红色块"只适合做消防车,看多了图纸后发现,红色也能做苹果（维度202→水果关联+0.7）,还能做超级英雄披风（维度916→动态感+0.8）,类似人类发现回形针除了夹文件，还能当手机支架

捕获语义

当AI看到"硅谷创业公司融资千万美元"时：

"硅谷" → 科技=0.95，美国=0.88，创新=0.93...

"融资" → 金钱=0.97，风险=0.85，增长=0.91...

自动联想到：

这相当于给每个词语装上GPS定位器，让AI在12,000维的语义宇宙中，精确找到它们所在的星座位置！

训练与微调

预训练就像九年义务教育+3年中学，什么都学，掌握文理科基础知识，有认知世界的能力，微调就像读高中，分文理，读大学分专业，最终变成某个领域的打工人（落地应用）

预训练：

用做饭来比喻：预训练就像是大厨的基本功训练，让厨师学徒先吃遍全国各种菜系（通用文本），掌握切菜、火候、调味的基础规律（语言规律）。这时候他不懂做具体菜品，但能凭经验判断"西红柿炒蛋应该先放蛋"这类常识（基础理解能力）。

微调：

微调，开餐厅前的专项培训，比如要开川菜馆：先给学徒看10本川菜菜谱（领域数据），记住豆瓣酱和花椒的使用场景（领域知识），再手把手教他做宫保鸡丁（任务训练），直到他能稳定复刻这个菜（任务适配）,最终他既保留通用厨艺，又成为川菜专家（领域专家模型）

预测生成

预测生成（Autoregressive Generation）是指大型语言模型（LLM）基于已输入的上下文逐词生成后续内容的过程。

预测过程：

输入序列编码

自回归生成（逐token预测）

采样策略（贪婪搜索/核采样等）

限制条件：受上下文窗口约束

还是使用用做菜流程比喻预测生成，连限制条件都容易记：预测生成，大厨现炒客制化菜品

看订单（输入编码）：客人说"微辣的水煮牛肉加莴笋"，大厨先拆解需求（把文本转成向量）

颠勺式推进（自回归生成）：

调味自由度（采样策略）：

限制：厨房工作台太小（上下文窗口）

就像厨师不会无限度记住两小时前的订单细节，模型也无法突破上下文窗口的记忆极限

上下文窗口（Context Window）

定义：模型单次处理的最大token数，直接影响其对长文本的连贯理解和多轮对话的记忆能力

优化技术：

大模型的“上下文窗口”就像一个人同时能记住的对话内容范围。举个例子，假设你在读一本小说，可以理解为AI的“短期记忆容量”。比如GPT-4能记住约32页书的内容（32K token），而DeepSeek-V3能记住128页（128K token），Claude 3更是能记住整本中篇小说（200K token）。这直接影响AI能否连贯分析长文章，或者在聊天时不忘记你10分钟前提过的事情。

技术优化类比：

FlashAttention：像快速翻书时用荧光笔标重点，只关注关键部分，既快又省脑力（减少计算量）。

稀疏注意力：类似读书时跳着看目录和章节标题，忽略无关段落（只处理部分内容）。

位置编码改进：相当于给书本每页编号+贴彩色标签，防止记混页数顺序（解决长文本位置错乱问题）。比如DeepSeek用“分段页码法”，前一半页码正常标，后一半自动扩展，还能无限续写。

扩展法则（Scaling Laws）

扩展法则三要素：

参数量（N）

训练数据量（D）

计算量（FLOPs）

扩展法则的三要素可以想象成做菜：

参数量（N）：相当于厨师的厨艺水平。就像经验丰富的厨师能处理更多复杂菜品，模型参数越多，"经验"越丰富，能处理更复杂的任务。

训练数据量（D）：相当于食材的数量。要做一锅够百人吃的佛跳墙，食材必须足够多，否则再好的厨师也会"巧妇难为无米之炊"。

计算量（FLOPs）：相当于厨具的性能。用柴火灶做菜可能需要10小时，但用高压锅1小时就能完成，计算量就是这口"锅"的做饭效率。

Chinchilla法则（N×20≈D可以理解为厨师和食材的黄金配比。假设你请了70位厨师（70B参数），按照法则需要准备1.4吨食材（1.4T tokens），也就是每位厨师分配20公斤食材。这背后的逻辑是：

这个法则颠覆了以往"厨师越多越好"的认知。比如过去大家觉得1750亿参数的GPT-3（相当于175位厨师），用3000亿token（相当于1.7吨食材）已经很多，但Chinchilla指出应该配3.5万亿token（35吨食材），相当于每位厨师分到200公斤——这说明之前的训练其实让厨师们"饿着肚子工作"。

涌现能力（Emergent Abilities）

用苏轼的一句诗最能表达腹有诗书气自华。涌现能力很容易理解，不多讲

涌现能力表现：

版权声明 1 本网站名称：捷鹰AI导航
2 本站永久网址：www.jieyingai.com
3 本站原创内容转载请注明出处，付费内容未经本站授权禁止转载二次发布
4 本站所有内容禁止用于任何非法用途！部分文章、素材、资源软件来自网络，仅供大家学习与参考。如有侵权，请联系站长QQ:1392478547进行删除处理
5 本站投稿禁止发布任何违法内容，如发现将立即封号处理，欢迎举报监督
6 本站附件资源、教程等内容如因时效原因失效或不可用，请联系留言或联系站长及时更新

THE END