1.大模型微调常见方法和步骤
2.低成本微调大模型的全流程框架 LMFlow
3.一种全自动可扩展的模型评测基准 LMFlow Benchmark
4.一种全新、高效、稳定的对齐算法 RAFT
➤论文
LMFlow: An Extensible Toolkit for Finetuning and Inference of Large Foundation Models.
RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment
paper:
code:
本次分享将介绍如何低成本微调一个垂直领域专属 ChatGPT,来满足个人和中小企业的需求。
首先,我们会介绍当前大模型发展的现状,包括其在现实领域中的广泛应用。
接下来会重点介绍我们最近研发的一个低成本微调全流程框架 LMFlow,支持用户方便地进行多种微调操作。典型案例包括仅需一张消费级显卡(例如 3090),即可在五个小时的时间内完成个性化指令微调。不仅如此,在特定的专家领域(以医疗为例),只需微调 6 个 A100 * 天,就能够获得和 ChatGPT 相当甚至更好的效果。
值得注意的是,ChatGPT 则具有 1750 亿的参数量,而这里性能相当的最小模型规模只有不到二十分之一,大大节约计算资源。同时我们会介绍最新的一个自动化评测基准 LMFlow Benchmark,基于 negative log likelihood 自动对微调模型进行评估,具有完全透明、自动化和灵活可扩展的优势。
LMFlow 的最终目的是帮助每个人都可以用尽量少的资源来训练一个专有领域的、个性化的大模型,以此来推进大模型的研究和应用落地。我们也欢迎更多开源爱好者、研究人员加入我们一起推动大模型微调的工作。
此外,我们还会介绍一种全新、高效、稳定的对齐算法——RAFT。PPO 等强化学习算法高度依赖反向梯度计算,导致训练代价较高,并且由于强化学习通常具有较多的超参数, 导致其训练过程具有较高的不稳定性。相比之下,RAFT 算法通过使用奖励模型对大规模生成模型的生成样本进行排序,筛选得到符合用户偏好和价值的样本,并基于这些样本微调一个对人类更友好的 AI 模型。
具体而言,RAFT 分为三个核心步骤:
在 RAFT 算法中,模型利用了更多次采样(当下采样后用以精调的样本一定时),和更少次梯度计算(因为大部分低质量数据被 reward 函数筛选掉了),让模型更加稳定和鲁棒。
同时,在某些情况下, 由于有监督微调本身对于超参数敏感性更低, 有更稳健的收敛性, 在相同 reward 情况下,RAFT可以拥有更好的困惑度(perplexity, 对应其生成多样性和流畅性更好)。
除了在语言模型上的对齐能力以外,我们还在扩散模型上验证了文生图的对齐能力,这是之前 PPO 算法无法做到的事情。
04
参与方式
05
往期回顾
极市平台专注分享计算机视觉前沿资讯和技术干货,特邀请行业内专业牛人嘉宾为大家分享视觉领域内的干货及经验,目前已成功举办113期线上分享。近期在线分享可点击以下标题查看:
暂无评论内容