一、结论写在前面
这是一项全面(100+页)的大型语言模型可信度研究,讨论了挑战、基准测试、评估、方法分析以及未来方向。将当前的大型语言模型投入生产的更大挑战之一是可信度。论文提出了一个涵盖8个维度的可信语言模型原则,包括一个横跨6个维度(真实性、安全性、公平性、稳健性、隐私和机器伦理)的基准测试。它还呈现了一项在TrustLLM中评估16个主流语言模型的研究,包括30多个数据集。尽管专有语言模型在可信度方面总体上优于大多数开源对应模型,但有几个开源模型正在缩小差距。这篇令人印象深刻的论文有很多值得深入探讨的内容。
图1:TRUSTLLM上16个LLM可信度表现的排名卡。如果模型的表现位于前八名,会显示其排名,深蓝色表示表现更好。在每个子部分,除非另有说明,否则全部排名基于整体表现
二、论文的简单介绍2.1 论文背景
LLM被用于各种与语言相关的任务,包括自动文章写作、博客和社交媒体帖子的创作以及翻译。此外,它们改进了搜索功能,正如在Bing Chat等平台中所见,还有其他应用。LLM的效果在其他许多领域也非常明显。例如,Code Llama等模型为软件工程师提供了可观的帮助。在金融领域,e BloombergGPT等LLM被用于情感分析、命名实体识别、新闻分类和问答等任务。此外,LLM正在日益广泛地应用于科学研究,涵盖医学应用、政治科学、法律、化学、海洋学、教育和艺术等领域,凸显了它们广泛和多样化的影响。
LLM的卓越能力可以归因于多种因素,例如:
然而,LLM的兴起也引发了对其可信度的担忧。与传统语言模型不同,LLM具有可能导致可信度问题的独特特征:
LLM输出的复杂性和多样性,以及它们新出现的生成能力。LLM展示了处理广泛复杂和多样化主题的空前能力。然而,这种复杂性本身就可能导致不可预测性,并因此可能产生不准确或误导性输出。同时,它们先进的生成能力为恶意行为者滥用开辟了新途径,包括传播虚假信息和促进网络攻击。例如,攻击者可能会使用LLM编造欺骗性和误导性文本,引诱用户点击恶意链接或下载恶意软件。此外,LLM可能被利用自动进行网络攻击,如生成大量假账户和评论以扰乱网站的正常运行。还有一种重大威胁来自旨在绕过LLM安全机制的技术,称为破壁攻击(jailbreaking attacks),这使攻击者可以非法滥用LLM。
大规模训练数据集中的数据偏见和私人信息。来自训练数据集中的潜在偏见是对可信度的一个主要挑战,这对LLM生成内容的公平性有重大影响。例如,数据中的男性中心偏见可能会产生主要反映男性视角的输出,从而掩盖女性的贡献和观点。同样,偏向特定文化背景的偏见可能导致对该文化偏向的回应,从而忽视其他文化背景存在的多样性。另一个关键问题是训练数据集中包含敏感个人信息。如果没有严格的安全保障措施,这些数据就容易被滥用,可能导致隐私泄露。这个问题在医疗保健领域尤为严峻,因为保护患者数据的机密性至关重要[65]。
用户高期望。用户可能对LLM的性能有很高的期望,期待准确而深刻的回应,这些回应强调模型与人类价值观的一致性。许多研究人员担心LLM是否与人类价值观一致。不一致可能会显著影响它们在各个领域的广泛应用。例如,LLM认为某种行为在某些情况下是合适的,而人类可能会视其为不恰当的,这在其应用中会导致冲突和矛盾,某些具体案例中已有所凸显。
LLM的开发者已经付出了巨大努力来解决上述问题:
有关开发者用于确保LLM可信度采用的各种策略的进一步讨论,请参阅第3.3节。尽管做出了这些协调努力,一个持续存在的问题是:我们能在多大程度上真正信任LLM?
为解决这个关键问题,解决大型语言模型可信度基准的这个基本问题至关重要。什么关键要素定义了大语言模型的可信度,从各个角度来看,如何评估这种可信度?此外,探索跨这些维度实际评估可信度的方法也至关重要。然而,回答这些问题绝非易事。主要挑战包括:
1)完整的定义。一个主要障碍是缺乏一个全面囊括可信度所有方面的公认标准。这种标准指标的缺乏使得难以统一评估和比较不同LLM的可信度。
2)可扩展性和泛化能力:创建适用于不同大小和类型LLM的可扩展基准,并能够泛化到各种领域和应用,是一项复杂的任务;
3)实际评估方法:有效的提示需要设计来测试显而易见的可信度问题,并发现那些不太明显的偏差和错误。这需要对技术和其输出的潜在社会影响都有深刻的理解。
早期研究对LLM的可信度奠定了基础性见解。这些研究提出了评估LLM的方法,并制定了衡量其可信度的分类法。但是,一些分类法没有完全涵盖与LLM可信度相关的所有方面。另外,一些分类法注重细粒度的区分,导致重叠的子类别,这使得明确的评估基准的建立复杂化。因此,需要一种更全面和细致的方法来准确评估LLM的可信度。
2.2 论文的方案
在这里,论文提出了TRUSTLLM,这是一个统一的框架,以支持对LLM可信度的全面分析,包括对现有工作的调研、可信LLM不同维度的组织原则、新颖的基准测试以及对主流LLM可信度的全面评估。具体而言,论文解决了上述三个挑战:
表格1:TRUSTLLM与其他与可信度相关的基准的比较
表2:识别的八个维度的定义
图2:TRUSTLLM基准的设计。在前人研究的评估原则基础上,设计了基准测试,以评估LLM在六个方面的可信度:真实性、安全性、公平性、稳健性、隐私和机器伦理。整合了现有和新提出的数据集(如表4所示)。基准测试将任务分类为分类和生成,详见表5。通过多样化的指标和评估方法,评估了一系列LLM的可信度,包括专有和开源变体
表3:基准测试中LLM的详细信息。对PaLM 2 API的使用中,删除了安全限制,因为其安全限制导致返回的许多内容为无。
2.3 论文贡献
TRUSTLLM评估的结果总结在图1中,观察结果和见解呈现在第2节。贡献如下:
(1)首先,根据全面的文献综述为评估LLM的可信度提出了一套准则,这是一个分类法,包含八个方面:真实性、安全性、公平性、稳健性、隐私性、机器伦理、透明性和问责制。
(2)其次,由于难以对透明性和问责制进行基准测试,论文为其中六个方面建立了基准测试。这是第一个综合基准测试,包含18个子类别,涵盖30多个数据集和16个LLM,包括专有和开源权重。除了图1中显示的这些模型的可信度排名外,我们在各个后续章节中呈现评估细节。
(3)最后但同样重要的是,论文从大量实验结果中得出了深刻的发现(详见第2节)。论文对LLM可信度的评估同时考虑整体观察和每个维度的个别发现,强调了效用与可信度之间的关系、大多数LLM存在的普遍不对齐、专有和开源LLM之间的差异,以及当前可信相关技术的不透明性。论文旨在为未来研究提供有价值的见解,有助于更全面地了解大型语言模型中的可信度格局。
表4:基准测试中的数据集和指标。¥表示数据集来自前人工作,q表示数据集首次在我们的基准测试中提出。
表5:任务概览。#表示通过自动脚本评估(例如关键词匹配),表示ChatGPT、GPT-4或longformer的自动评估,G#表示混合评估。RtA表示拒绝回答。ASR表示攻击成功率。RS是稳健性得分。更可信的LLM预期在具有↑的指标上值更高,在具有↓的指标上值更低
表6:仅使用内部知识进行零样本QA的提示示例
表7:仅使用内部知识的QA结果和在提供外部知识时的事实检查结果。每个数据集中表现最好的模型用绿色标注
表8:带外部知识的零样本事实检查的提示示例
论文标题:TrustLLM: Trustworthiness in Large Language Models
论文链接:
论文网站:
暂无评论内容