ChatGPT如何微调-JieYingAI捷鹰AI

我们之前在中已经介绍了大模型和LLM的基本概念，在中展开介绍了一下LLM。

今天我们来介绍一下类似ChatGPT这样的LLM是如何微调的。

Andrej Karpathy之前在微软Build 2023开发者大会上做了专题演讲：State of GPT（GPT的现状），里面详细介绍了ChatGPT是如何微调的，我觉得讲的还是蛮好的，于是我把这个演讲录了下来，现在分享给大家。

Andrej Karpathy在上述演讲里提到ChatGPT就是按照如下这张图来微调的：

Andrej Karpathy提到ChatGPT的微调流程实际是如下这样的三步走：

第一步：针对预训练模型，收集示范数据并进行SFT：

从数据集中选择提示问题，Contractor人工书写针对上述提示问题期望的输出。

这些数据（提示问题+期望输出）用于通过监督学习来微调预训练模型，这一步骤被称为监督式微调-Supervised Fine-Tuning（SFT）。

第二步：针对SFT，收集比较数据并训练一个奖励模型RM：

选取一个提示和多个经过SFT微调后的针对这个提示的LLM输出，Contractor人工将这些输出从最好到最差进行排序。这个排序数据用于训练一个奖励模型-Reward Model（RM），该模型帮助LLM了解哪些输出更优。

第三步：针对SFT和RM，使用PPO进行强化学习RL（Reinforcement Learning）：

从数据集中选取一个新的提示，然后使用近端策略优化-Proximal Policy Optimization（PPO）强化学习算法用经过SFT微调后的LLM产生一个输出。然后使用第二步中训练好的奖励模型RM为该输出计算奖励值。然后使用PPO算法用计算出的奖励值来更新LLM的参数，目标是追求奖励值的最大化。

版权声明 1 本网站名称：捷鹰AI导航
2 本站永久网址：www.jieyingai.com
3 本站原创内容转载请注明出处，付费内容未经本站授权禁止转载二次发布
4 本站所有内容禁止用于任何非法用途！部分文章、素材、资源软件来自网络，仅供大家学习与参考。如有侵权，请联系站长QQ:1392478547进行删除处理
5 本站投稿禁止发布任何违法内容，如发现将立即封号处理，欢迎举报监督
6 本站附件资源、教程等内容如因时效原因失效或不可用，请联系留言或联系站长及时更新

THE END