大语言模型LLM,幻觉现象综述和调研

摘要:大模型在各种下游任务取得了非常出色的性能,但是我们使用的过程中,不可否认,偶尔会产生下面的一些问题:

这种现象被称为“幻觉”。本文提出了LLMs幻觉现象的分类,分析了用于评估幻觉的基准测试,探讨了旨在减轻LLMs幻觉的现有方法,并讨论了未来研究的潜在方向。

下面的图片概括了本文的主要内容

图片[1]-大语言模型LLM,幻觉现象综述和调研-JieYingAI捷鹰AI

1. 幻觉的三个定义

1.1 输入幻觉(Input-Conflicting Hallucination):这种幻觉发生时,LLMs生成的内容与用户的输入不符。例如,一个模型可能生成与用户问题无关的答案。

1.2 上下文幻觉(Context-Conflicting Hallucination):这类幻觉指的是生成的内容与之前生成的上下文相矛盾。这可能发生在对话生成或相关需要维持一致性的任务中。

1.3 事实幻觉(Fact-Conflicting Hallucination):这种幻觉涉及到生成内容与已建立的世界知识不一致,如事实错误或错误的信息。

2. 三种Benchmark来评估LLM幻觉的问题

2.1 输入幻觉基准(Input-Conflicting Benchmark):这些基准测试旨在评估模型在面对可能引发输入冲突幻觉的任务时的表现,比如QMSum, FENMT, FEQA等。

2.2 上下文幻觉基准(Context-Conflicting Benchmark):如HADES等,这些基准测试用于评估模型在长篇生成或需要上下文一致性的情况下的表现。

2.3 事实幻觉基准(Fact-Conflicting Benchmark):例如TruthfulQA, FActScore, HaluEval, FACTOR等,这些测试用于检测模型在面对需要准确事实信息的任务时是否会产生事实错误。

3. 对应的解决方法

3.1 预训练期间策略(Pre-training):大型语言模型(LLMs)会从大量的训练数据中积累知识,并将其嵌入模型参数中。幻觉可能发生在模型缺乏相关知识或从训练数据中吸收了错误知识时。通过以下方法可以在预训练期间减轻幻觉:

“预训练过程中幻觉的缓解主要集中在围绕预训练语料库。目前主要采用简单的启发式规则进行数据选择和过滤。”

3.2 监督式微调(SFT)期间的策略:监督式微调(SFT)是一种常见的做法,主要调整LLMs从预训练中获得的知识,并学习如何与用户互动。在SFT阶段可以采取以下措施:

图片[2]-大语言模型LLM,幻觉现象综述和调研-JieYingAI捷鹰AI

图片[3]-大语言模型LLM,幻觉现象综述和调研-JieYingAI捷鹰AI

3.3 基于人类反馈的强化学习(RLHF):RLHF是一种训练策略,通过人类反馈来强化和调整LLMs的行为。这种方法可以在LLMs推理阶段减少幻觉风险:

“RLHF可能会表现出保守主义,在helpfulness和honesty之间存在imbalanced trade-off. 比如说,下图的回答就是一个例子:ChatGPT倾向于过度回避,避免提供它已经知道的答案。”

图片[4]-大语言模型LLM,幻觉现象综述和调研-JieYingAI捷鹰AI

3.4 推理期间(inference time)的幻觉缓解策略

设计解码策略

“该方法易于部署,具有应用前景。然而,对于这种方法,大多数都需要访问token输出概率,而大量llm是闭源的,无法获得这样的信息”

依赖外部知识

利用外部知识

利用不确定性

这些方法展示了在模型的推理阶段可以实施的多种策略,以减少或缓解幻觉现象,从而提高LLMs的可靠性和实用性。

在第5.5节及其之后的部分,论文讨论了多种缓解大型语言模型(LLMs)幻觉的方法,并提出了一些研究展望。以下是每部分的详细内容:

除此之外,作者提到了其他的方法,比如说

多智能体互动 (Multi-agent Interaction)

提示工程 (Prompt Engineering)

分析LLMs内部状态 (Analyzing LLMs’ Internal States)

Human-in-the-loop

那么未来还有什么值得进行研究呢?

可靠的评估 (Reliable Evaluation)

多语言幻觉 (Multi-lingual Hallucination)

多模态幻觉 (Multi-modal Hallucination)

模型编辑 (Model Editing)

攻击/防御诱发幻觉 (Attack/Defense for Inducing Hallucination)

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发
头像
来说点什么吧!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容