除传统强化学习所优化的语法正确性和字数,RLHF还具备引导模型走向创造力、情感共鸣和原创性的能力。这些元素难以量化,但对于引人入胜的叙述至关重要。RLHF真正的魅力在于它结合机器的计算能力和人类的直观理解,使得人工智能不仅变得更聪明,更变得明智。
四、提示工程(Prompt Engineering)
提示工程在掌握大语言模型中起到至关重要的作用,其是优化人工智能性能的重要过程。擅长进行提示工程的人通常能够成功地引导LLM产生所需的输出。我们将用户提供给模型的输入文本称为“提示”,而LLM生成的输出文本则被称为“结果”。
在使用大型语言模型时,用户可能已经在不知不觉中进行提示工程。如果模型首次尝试未提供所需的输出,用户通常会多次修改请求,以引导模型返回期望的内容。这实际上就是提示工程的核心所在。此外,提示工程的关键策略之一是情境学习。
1、情境学习(In-context learning)
情境学习是一种通过提示中的特定任务示例来改进提示的方法,为LLM提供需要完成的任务的蓝图。情境学习包含下面一些技术:
1)“零样本推理(Zero-shot inference)”是一种用于GPT-3等LLM的策略,其将输入数据合并到提示中,而无需任何额外示例。虽然这种方法通常适用于较大模型,但较小模型可能很难理解任务。
2)如果零样本推理不能产生所需结果,则可以使用“单样本(one-shot)”或“少样本(few-shot)推理”。这些策略包括在提示中添加一个或多个已完成的示例,帮助较小的法学硕士表现得更好。例如,要对电影评论的情感进行分类,提示将包括说明、评论文本以及最后的情感分析请求。
3)假设正在尝试教导LLM提高其对电影评论进行分类的能力。可能会用到这样的提示:
- 对这篇评论进行分类:“一部令人惊叹的杰作,让我激动不已。”情绪:积极
- 现在给模型分类“一部花了我三个小时的无聊电影”,它会将情绪分类为“负面”。
2、微调(Fine-tuning)
需要承认的是,即使包含五六个示例,上下文学习对于较小的模型也并不总是有效。此外,模型可以处理上下文学习量存在限制,称为“上下文窗口”。上下文窗口中包含的任何示例都占用有限空间,可能会减少包含其他有用信息的空间。如果多个示例未能提高模型性能,那么对LLM进行微调可能是一种解决方法。
微调是在预训练后的过程,其中模型在较小特定数据集上接受额外训练,以提高在特定任务上的性能(特定数据集通常与特定任务或领域相关)。通过在更窄的数据集上进行微调,模型变得专业化,表现更好于与该领域相关的任务。例如,如果希望语言模型能够回答医学问题,可以使用医学教科书和期刊对其进行微调。需要注意的是,与预训练一样,完全微调需要足够的内存和计算资源来存储和处理训练期间的所有梯度、优化器和其他组件的更新。
五、大语言模型的挑战和局限性
大语言模型面临一些显著挑战,其中两个主要问题值得关注:
1、数据和计算需求:大语言模型需要庞大的数据集进行训练。其对大量文本数据需求巨大,而且逻辑上,数据量越大,需要的计算资源就越庞大,训练时间也相应增加。因此,大型语言模型的训练过程变得资源密集。
2、可解释性问题:大语言模型的工作方式就像一个封闭的金库,其内部操作对外部观察者来说难以解释。确定模型为何以及如何产生特定输出是具有非常大的挑战性,就像尝试破解没有密钥的密码一样。为应对这个“黑匣子”问题,OpenAI等机构致力于引入工具,自动识别模型中负责特定行为部分,以提高模型的可解释性。
可解释性问题
3、过度概括:虽然LLM经过广泛多样数据训练,但有时候会做出过于宽泛的概括,忽略语言、文化和背景中的细微差异。
1)无意识的错误信息:LLM缺乏全面的事实核查程序,这使得它们容易生成表面上看似合理但实际上不正确或具有误导性文本。
2)灾难性遗忘:大语言模型(LLM)可能在特定任务上表现出色,例如通过微调生成诗歌。然而,使用相对较小的数据集进行微调可能导致“灾难性遗忘”,即模型在其他任务上失去一般性能。为防止这种遗忘,需要采用一些解决方案,如“多任务微调”或“参数高效微调”(PEFT),以保持模型在多个任务上的综合性能。
六、负责任的人工智能(Responsible AI)
在生成式人工智能领域,尤其是大语言模型(LLM)相关领域,正面临一系列伦理问题,其中三个核心挑战是毒性、幻觉和知识产权问题。
1、毒性:指可能对特定群体尤其是边缘化或受保护群体,产生不利影响的有害或歧视性语言。解决策略包括管理训练数据、过滤不合适的内容,以及雇用多元化的人类注释者团队进行训练,以减少模型中的偏见风险。
2、幻觉:指人工智能产生无根据或不真实输出的情况。用户需要了解人工智能技术的现实和产生幻觉的可能性。解决方案包括将输出与验证的数据源进行交叉引用,开发可追溯到原始训练数据的方法,以及明确定义人工智能的预期和非预期用途。
3、知识产权问题:当人工智能生成可能侵犯版权或抄袭的内容时,会涉及知识产权问题。解决方案包括技术创新、政策制定和法律干预的综合应用,如机器学习等新概念、内容过滤和阻止等保护措施。
七、大语言模型的发展趋势
大语言模型很流行并被大量使用,但还有很多改进和发展的空间。
1、合成数据(Synthetic data)
随着对隐私问题的日益关注,合成数据已成为热门话题。这些数据并非从现实场景中收集,而是通过人工创建而成。利用合成数据,可以减少对隐私问题的担忧。这可能会改变在需要大量模拟的领域(例如视频游戏或灾难应对训练)中应用人工智能的方式。
2、事实核查(Fact-checking)
在信息爆炸的现代社会,我们面临着海量信息,但并非所有信息都是真实可靠的。大语言模型的另一个重要改进方向是自动事实核查。未来,人工智能将具备实时判断信息准确性的能力,这将有助于遏制虚假信息的传播,甚至识别深度伪造的内容。
目前,谷歌的REALM和Facebook的RAG是解决LLM事实准确性和可靠性的两种最有前景的技术。除此之外,GPT系列的最新成员WebGPT通过与Microsoft Bing集成,引入了引用功能,从而提高回复的准确性和可信度。事实上,在回复准确性方面,WebGPT已经超越ChatGPT和其他相关技术。
真实的质量检查结果
当模型在其输出中涵盖来自互联网的信息时会包含引用,使个人能够验证信息的来源。WebGPT的初步研究结果令人鼓舞,该模型在准确响应的百分比以及提供的真实和信息丰富的答案数量方面优于所有GPT-3模型。
3、专家模型(Expert models)
专家模型不是利用大语言模型中的所有参数,而是使用最适合给定查询的这些参数的子集,使计算要求较低。其中一些稀疏专家模型包括Google的SwitchTransformer(1.6万亿个参数)、Google的GLaM(1.2万亿个参数)以及Meta的Mixture of Experts(MoE)和Mixture of Tokens(MoT)(1.1万亿个参数)。