基于大语言模型的表格数据分类模型TabLLM

图片[1]-基于大语言模型的表格数据分类模型TabLLM-JieYingAI捷鹰AI

论文地址:

代码地址:

1. 论文摘要

本文研究了大语言模型(LLMs)在零样本(zero-shot)和少样本(few-shot)表格数据分类中的应用。论文中将表格数据序列化为自然语言字符串,并附带分类问题的简短描述,以此提示大语言模型。在少样本设置下,通过利用部分带标签的数据对大语言模型进行微调。同时评估了多种序列化方法,包括模板、表格到文本(table-to-text)模型以及大语言模型。尽管该方法非常简单,但结果发现它在多个基准数据集上优于现有的基于深度学习的表格分类方法。在大多数情况下,即使是零样本分类也能取得显著的表现,这表明该方法能够利用大语言模型中编码的先验知识。与许多基于深度学习的表格数据方法不同,该方法在极少量样本(very-few-shot)设置下也能与传统的强基线方法(如梯度提升树)相竞争。

本文提出了TabLLM框架,利用大语言模型(LLMs)对表格数据进行零样本和少样本分类,通过将表格数据序列化为自然语言文本并结合任务特定提示,TabLLM能有效地利用模型中编码的先验知识,实现对表格数据的高效分类。实验结果表明,该方法在多个基准数据集上优于传统深度学习模型,并在极少样本条件下与梯度提升树等经典方法相比表现出色,尤其在医疗等实际应用场景中也展现了良好的效果。

2. 背景和意义

表格数据广泛存在于现实世界,这类数据在医疗健康、金融和气候等领域尤为常见,但表格数据分类任务面临着标注数据稀缺的挑战,特别是在医疗领域,罕见疾病种类繁多且患者数量稀少,导致风险预测模型难以有效构建。尽管深度学习在计算机视觉和自然语言处理方面取得了显著进展,但在表格数据领域,深度学习方法(如自监督学习)尚未超越传统的机器学习模型(如梯度提升树),主要原因在于表格数据的局部性缺乏、数据类型混合以及特征维度较低。与此同时,近年来预训练的大型语言模型(如 GPT-3 和 T0)在少样本和零样本任务中展现出强大的能力,能够在缺乏标注数据的情况下,通过丰富的先验知识完成多种复杂任务,这为解决表格数据分类中的数据稀缺问题提供了新的可能。

为了应对这些挑战,本文提出了TabLLM,一种利用大型语言模型进行表格数据零样本和少样本分类的通用框架;该方法通过将表格数据序列化为自然语言描述,并结合任务相关提示,使得 LLM 能够有效地进行分类任务。研究表明,TabLLM 在多个基准数据集上超越了现有的深度学习方法,并在少样本条件下表现优于或接近梯度提升树等传统强基线模型,尤其在极少量样本条件下表现尤为突出。这一研究不仅证明了 LLM 在表格数据分类中的应用潜力,还为数据稀缺领域(如医疗健康)提供了新的解决方案,充分发挥了 LLM 在知识迁移和泛化能力方面的优势,具有重要的研究价值和实际应用前景。

3. 研究方法

图片[2]-基于大语言模型的表格数据分类模型TabLLM-JieYingAI捷鹰AI

3.1 TabLLM在表格数据分类中的应用

问题形式化:假设有一个包含 n 行和 d 列(或特征)的表格数据集,可以形式化表示为 D={

},其中

是一个 d 维特征向量,

属于类别集合 C。将列名或特征名定义为 F=

,并假设这些列名是自然语言字符串(如“年龄”或“教育水平”)。在 k-shot 分类实验中,我们从 D 中有放回地随机抽取大小为 k 的子集

进行微调或训练。

表格数据的序列化:为了将表格数据输入到大型语言模型(LLM)中,必须将数据转换为自然语言表示。通常,提示(prompt)会包含一个模板,用于将输入序列化为自然语言字符串,并附加任务相关的提示语(例如:“这个人年收入超过5万美元吗?请回答是或否。”)。本研究将序列化与提示分开处理。定义了一个函数 serialize(F,x),输入列名 F 和特征值 x,输出该行数据的文本表示。然后将序列化结果与任务相关的提示 ppp 组合,形成LLM的输入 (serialize(F,x),p)。

用于分类的LLM:TabLLM可以与不同的LLM一起使用,设 LLM 是一个具有词汇表 V 的语言模型,则其输出为 LLM((serialize(F,x),p))∈

。在 few-shot 学习中,{(serialize(F,x),p)∣(x,y)∈

}被用作微调的训练样本。LLM的输出需要通过“verbalizer”映射到具体的分类标签(如将“是”映射为1,“否”映射为-1)。

3.2TabLLM的实现

序列化方法:为了提高性能,本研究设计了九种不同的序列化方法。

标准模板序列化:①列表模板(List Template):按固定顺序列出所有特征名和对应值。②文本模板(Text Template):将所有特征写成类似“The column name is value.”的句子。③表到文本(Table-To-Text):使用经过表到文本任务微调的LLM生成自然语言描述。LLM序列化:①Text T0:使用T0模型将每行数据拆分为成对的列-值组合,输入模型生成句子,再合并结果。②Text GPT-3:用GPT-3模型将所有特征转为自然语言。消融实验的序列化方法:①仅特征值(List Only Values):仅序列化特征值,不包含列名。②打乱列名(List Permuted Names):打乱列名与特征值的对应关系。③打乱特征值(List Permuted Values):在所有样本中一致性地打乱特征值。④简短列表(List Short):仅选择前十个特征用于序列化,针对于医疗数据。

4. 实验结果

文章的实验分为两大部分:

(1)实验设置

(2)结果对比

4.1实验设置

一、实验数据:公共表格数据集和大型医疗索赔数据集,并使用上述说到的9种序列化方法。

公开数据集为以下9个数据集:Bank(45,211行,16特征)、Blood(748行,4特征)、California(20,640行,8特征)、Car(1,728行,8特征)、Credit-g(1,000行,20特征)、Income(48,842行,14特征)、Jungle(44,819行,6特征)、Diabetes(768行,8特征)、Heart(918行,11特征)。对其进行的任务为:二分类和多分类任务。

大型医疗索赔数据集来源于美国某健康保险公司的去标识化健康索赔数据。对该数据集的任务有三个:End-of-Life (EoL):预测70岁以上患者的生存风险;Surgery:预测患者是否需要外科手术;Likelihood of Hospitalization (LoH): 预测患者住院可能性。

二、基线模型:与TabLLM对比的模型包括:

传统机器学习模型:逻辑回归(Logistic Regression, LR)、XGBoost、LightGBM

深度学习模型:TabNet(基于注意力机制的表格数据神经网络)、SAINT(行列注意力机制模型)、NODE(可微树集成方法)、TabPFN(基于贝叶斯网络的模型(无需调参))

语言模型:GPT-3(Zero-shot)(不进行微调)

三、微调与评估

微调方式:使用T-Few方法对T0模型进行参数高效微调。

评估指标:使用AUC评估模型性能。

4.2 结果对比

4.2.1不同序列化方法的效果

图片[3]-基于大语言模型的表格数据分类模型TabLLM-JieYingAI捷鹰AI

该图展示了不同序列化方法对TabLLM在九个公共数据集分类任务上的性能影响。结果表明:文本模板(Text Template)在零样本和少样本条件下表现最佳,这说明将表格数据以自然语言形式序列化,能够更好地与LLM的预训练分布对齐,从而提高模型的分类性能;而复杂的LLM序列化方法(如GPT-3、T0)反而效果较差,可能是因为模型在序列化过程中幻觉(hallucinate)信息或遗漏了部分特征,导致预测偏差;相比之下,仅包含特征值或置换特征名称的序列化方式明显降低了模型性能,尤其在零样本和少样本情况下,这表明TabLLM在数据稀缺条件下对特征名称与其对应关系的准确性非常依赖;另外,置换特征值对性能的影响更为显著,进一步证明模型更依赖于特征值本身。

结果说明了简单且贴合自然语言的序列化方法(如Text Template)在TabLLM中是最有效的,复杂的序列化方法反而可能带来负面影响。

4.2.2公共数据集实验结果

图片[4]-基于大语言模型的表格数据分类模型TabLLM-JieYingAI捷鹰AI

该图是TabLLM与多个基线模型在九个公共数据集上的性能差异比较。实验结果清楚地表明,TabLLM在零样本和少样本(特别是4到32个样本)条件下显著优于所有基线模型,尤其是深度学习模型(如SAINT、TabNet)和树模型(如XGBoost、LightGBM);TabPFN是性能最接近TabLLM的基线模型,但在少样本条件下仍然被TabLLM超越;随着训练样本数量的增加(≥256),树模型的性能逐渐赶上甚至超过TabLLM,这可能归因于树模型在充足数据条件下表现更稳定,但在少样本下容易过拟合;值得注意的是,尽管GPT-3模型拥有更大的参数规模(1750亿),但其在零样本条件下的性能与TabLLM相当,这进一步说明TabLLM在参数规模更小的情况下依然具有卓越的学习能力和数据效率。

图片[5]-基于大语言模型的表格数据分类模型TabLLM-JieYingAI捷鹰AI

表1展示了TabLLM、XGBoost和TabPFN在9个不同数据集和样本数量下的详细AUC对比结果。数据表明,TabLLM在大多数数据集上,即使在零样本条件下,也能取得较高的AUC分数,显著优于XGBoost和TabPFN。特别是在少样本(4到32个样本)条件下,TabLLM的表现持续领先;然而,在Credit-g和Heart数据集上,TabLLM的表现稍显逊色,这可能是由于数据集的特性或偏斜导致的;随着样本数量的增加(≥128),TabPFN逐渐缩小与TabLLM的差距,并在某些数据集上表现接近甚至持平于TabLLM;这表明TabLLM在少样本环境中具有明显的性能优势,但在样本量充足时,TabPFN等模型仍能保持竞争力。

图片[6]-基于大语言模型的表格数据分类模型TabLLM-JieYingAI捷鹰AI

表2是Income数据集实验的一部分,进一步探讨了模型对数据内在特征的敏感性和解释能力。实验结果显示,TabLLM在零样本条件下,成功地识别出了与高收入相关的关键特征(如资本收益和学历),并且这些特征的重要性排序与经过全数据训练的LR模型高度一致,特别是资本收益(Capital Gain)在两个模型中都被认为是最强的正向预测因素,而低学历和低收入职业(如私人家庭服务和学前班学历)被一致视为负向因素;这一结果表明,尽管TabLLM未经过针对性的训练,但它仍然能够凭借其预训练语言模型的丰富知识,对表格数据进行合理的特征解释和有效的分类预测。

4.2.3医疗索赔数据集实验结果

图片[7]-基于大语言模型的表格数据分类模型TabLLM-JieYingAI捷鹰AI

表3展示了对TabLLM、逻辑回归(LR)和LightGBM在大型医疗索赔数据集上表现的对比。结果显示,TabLLM在零样本下的表现非常突出,分别在EoL、Surgery和LoH任务中取得了0.70、0.67和0.71的AUC分数,明显优于LR和LightGBM;随着样本数量的增加(16至64),TabLLM依然领先于传统模型,但在更多样本(≥256)时,LightGBM的性能逐渐赶上甚至略微超越TabLLM;这一结果说明,TabLLM在数据稀缺环境下能够有效利用LLM的先验知识进行预测,而传统机器学习模型在大样本场景中仍然保持稳定表现。

图片[8]-基于大语言模型的表格数据分类模型TabLLM-JieYingAI捷鹰AI

表4进一步分析了TabLLM在EoL任务中的特征重要性。实验发现,即使在零样本条件下,TabLLM也能够成功识别出与生命终止风险高度相关的临床特征;例如,心房颤动(Atrial Fibrillation)和冠状动脉粥样硬化(Atherosclerosis of coronary arteries)被识别为高风险因素,其相对风险(Relative Risk, RR)分别为2.72和2.10,与此同时,模型还能识别出低风险因素,如女性性别(Sex Female),其相对风险仅为0.81;这说明TabLLM不仅能进行准确的分类,还能通过预训练知识有效地提取和利用与任务相关的关键特征。

5. 总结

这篇文章主要研究了如何利用TabLLM框架实现对表格数据的零样本(Zero-shot)和少样本(Few-shot)分类任务。作者提出了一种基于大语言模型(LLM)的新型方法,将表格数据通过多种序列化方式转化为自然语言输入,并结合任务描述进行分类预测;TabLLM不仅有效地利用了预训练语言模型中丰富的先验知识,还在数据稀缺的情况下展现了强大的分类能力,特别是在处理复杂的表格数据时表现出色。

1. 文章结论表明,TabLLM在多个公共数据集和医疗索赔数据集上均优于传统的树模型(如XGBoost、LightGBM)和深度学习模型(如TabNet、SAINT),尤其在零样本和极少样本条件下表现尤为显著。实验结果显示,简单的自然语言序列化方法(如Text Template)比复杂的LLM序列化方法更有效,TabLLM能够自动识别关键特征并实现准确分类;特别是在医疗任务中,TabLLM无需任何标注数据即可有效预测疾病风险和住院概率,充分展示了模型对领域知识的理解和泛化能力。

2. 实验结果进一步表明,TabLLM不仅在分类精度上超越了基线模型,还在特征解释性方面表现出色。通过与逻辑回归(LR)对比,TabLLM在零样本条件下准确识别出与分类结果密切相关的特征,验证了其对特征重要性的敏感性和可靠性。并且消融实验表明,TabLLM在特征名称和特征值的匹配上具有较强的依赖性,强调了序列化方式对模型性能的影响;总体而言,TabLLM展示了其在数据稀缺场景(如医疗健康、金融风控等领域)中的巨大潜力,为表格数据分类任务提供了一种高效、灵活且具有广泛适用性的新方法。

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享