堪比ChatGPT!Meta华人提出「牧羊人」Shepherd,LLaMA 70亿参数微调,评估模型生成给出建议

(2) 人工标注的反馈,从不同类型任务中收集。

比如,从Stack Exchange和Human Annotation收集的训练数据示例。

图片[1]-堪比ChatGPT!Meta华人提出「牧羊人」Shepherd,LLaMA 70亿参数微调,评估模型生成给出建议-JieYingAI捷鹰AI

Shepherd模型

研究人员以LLaMA-7B为基础模型训练 Shepherd,并使用AdamW作为优化器,β1 = 0.9,β2 = 0.95,权重减少为 0.1。

然后,使用1e-5的学习率和2000个热身步骤,并将批大小设为64,最大序列长度设为2048。

训练数据的格式使用相同的模板,使用「### {field name}」来分隔不同的字段。

为每50个步骤保留检查点,共计3000个步骤。

研究人员手动检查生成的反馈是否能识别错误,或在20个示例的保留集上提出建设性建议,并选出 3 个最佳检查点。

然后,使用GPT-4评估协议,在保留的示例集上选出最佳检查点。

02

评估

图片[2]-堪比ChatGPT!Meta华人提出「牧羊人」Shepherd,LLaMA 70亿参数微调,评估模型生成给出建议-JieYingAI捷鹰AI

为了检验Shepherd对模型生成的批判能力,研究人员将其与一系列最先进的语言模型进行了比较,包括Alpaca-7B、SelFee-7B和ChatGPT。

通过使用 GPT-4作为评估工具,同时进行人工评估和自动评估。

为了广泛覆盖NLP领域,研究人员精心挑选了6个公共数据集进行评估:

- AlpacaFarm

- FairEval

- CommonsenseQA

- OBQA

- PIQA

- TruthfulQA

这6个数据集涵盖了广泛的主题和推理技能集,包括常识推理、物理推理、数学推理等。

然后,研究人员从每个数据集的验证集/测试集中抽取50个实例,最终的评估集共有300个实例。

团队首先分析了,Shepherd是否能比其他竞争模型生成更好的反馈。在如下图2和图3中分别展示了,使用GPT-4和人工评估的对比较结果。

图片[3]-堪比ChatGPT!Meta华人提出「牧羊人」Shepherd,LLaMA 70亿参数微调,评估模型生成给出建议-JieYingAI捷鹰AI

在这两种评估设置中,Shepherd明显优于Alpaca、SelFee。

需要注意的是,Shepherd和SelFee都是经过微调的LLaMA-7B模型,但是SelFee是在一个包含178K示例的数据集上进行微调的,而Shepherd只在一个包含8K示例的数据集上进行了微调。

根据GPT-4评估,Shepherd的性能略高于ChatGPT,而在人类评估中,Shepherd的性能与ChatGPT相当。

总之,在数据集的组合上进行训练后,Shepherd展示出令人印象深刻的结果,在多个下游任务中的表现优于ChatGPT。

对社区反馈和人类标注的反馈数据的影响进行仔细检查后发现,社区数据比人类标注的数据信息量更大、更多样化,但却偏向于非正式性。

这些细微差别使Shepherd能够对不同的任务提供反馈。

同时,研究人员发现,包括用于微调的高质量人类标注数据可以提高模型性能。

然后,研究人员对Shepherd生成的反馈进行了,模型评估(GPT4)以及人工评估,并与最先进的基线进行了比较。

图片[4]-堪比ChatGPT!Meta华人提出「牧羊人」Shepherd,LLaMA 70亿参数微调,评估模型生成给出建议-JieYingAI捷鹰AI

与其他模型相比,Shepherd的评论通常更受青睐。

比如,Alpaca倾向于对模型的所有回应给予积极反馈,从而导致大量错误反馈。

SelFee倾向于提供模糊的反馈,不能准确指出错误,忽略模型的回答或直接回答问题,而不是批评回答。

ChatGPT在不同的评估设置中更加稳定,并在提供正确判断的反馈方面做得更好。

03

作者介绍

图片[2]-堪比ChatGPT!Meta华人提出「牧羊人」Shepherd,LLaMA 70亿参数微调,评估模型生成给出建议-JieYingAI捷鹰AI

共同一作有2个人。

Tianlu Wang

图片[6]-堪比ChatGPT!Meta华人提出「牧羊人」Shepherd,LLaMA 70亿参数微调,评估模型生成给出建议-JieYingAI捷鹰AI

Tianlu Wang是Meta人工智能研究的研究科学家。

她曾在弗吉尼亚大学获得了计算机科学博士学位,导师是Vicente Ordóñez Román。在此之前,她还获得了浙江大学计算机科学学士学位。

Ping Yu

Ping Yu是FAIR研究科学家。

曾在纽约州立大学布法罗分校获得了计算机博士学位,并在密歇根大学获得了计算工程硕士学位。

图片[7]-堪比ChatGPT!Meta华人提出「牧羊人」Shepherd,LLaMA 70亿参数微调,评估模型生成给出建议-JieYingAI捷鹰AI

参考资料:

END

AI芯片峰会预告

9月14-15日,2023全球AI芯片峰会(GACS 2023)将登陆深圳。清华大学教授、中国半导体行业协会副理事长、IEEE Fellow魏少军,AMD人工智能事业部高级总监王宏强,后摩智能联合创始人、研发副总裁陈亮,奎芯科技副总裁王晓阳,云天励飞副总裁、芯片业务线总经理李爱军、清华大学交叉信息研究院助理教授马恺声、珠海芯动力CEO李原等10+位嘉宾已确认参会和演讲。欢迎报名。

图片[8]-堪比ChatGPT!Meta华人提出「牧羊人」Shepherd,LLaMA 70亿参数微调,评估模型生成给出建议-JieYingAI捷鹰AI

你的每一个“在看”,我都当成了喜欢

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发
头像
来说点什么吧!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容