1. IOPO: Empowering LLMs with Complex Instruction Following via Input-Output Preference Optimization
在大语言模型(LLMs)的领域中,模型准确遵循指令的能力至关重要,因为越来越多的智能Agent和应用程序依赖LLMs进行构建,而指令的复杂性正在迅速提升。然而,一方面,只有有限的数据用于评估复杂指令;另一方面,缺乏专门的算法来提升遵循复杂指令的能力。为此,本文提出了一个名为TRACE的基准,包含120,000个训练数据和1,000个评估数据。此外,我们提出了IOPO(输入-输出偏好优化)对齐方法,该方法同时考虑输入和输出偏好对,使得LLMs不仅能够迅速与响应偏好对齐,还能细致探索指令偏好。在领域内和领域外数据集上的广泛实验验证了IOPO的有效性,与SFT相比,在领域内数据上提高了8.15%,在领域外数据上提高了6.29%;与DPO相比,在领域内数据上提高了2.18%,在领域外数据上提高了3.13%。
论文:
2. Autoregressive Models in Vision: A Survey
自回归建模在自然语言处理(NLP)领域取得了巨大成功。近年来,自回归模型在计算机视觉领域崭露头角,尤其在生成高质量视觉内容方面表现出色。NLP中的自回归模型通常基于子词标记。然而,在计算机视觉中,表示策略可以在像素级、标记级或尺度级等多个层次上有所不同,反映了视觉数据的多样性和层次结构,不同于语言的序列结构。本文综述了自回归模型在视觉领域的应用。为了提高不同研究背景的学者的可读性,我们首先提出了视觉领域的初步序列表示和建模。接着,我们将视觉自回归模型的基本框架分为三大类模型,包括基于像素、标记和尺度的模型,反映了表示策略的差异。然后,我们探讨了自回归模型与其他生成模型之间的联系。此外,我们还从多方面对计算机视觉中的自回归模型进行了分类,包括图像生成、视频生成、3D生成和多模态生成。我们还详细提出了它们在不同领域的应用,包括新兴领域如具身AI和3D医疗AI,附有约250篇相关参考文献。最后,我们指出了视觉自回归模型当前面临的挑战,并提出了潜在的研究方向。我们还建立了一个Github仓库,以组织本文综述中包含的论文,网址为:。
论文:
3. KMM: Key Frame Mask Mamba for Extended Motion Generation
人类运动生成是计算机视觉领域的前沿研究领域,在视频创作、游戏开发和机器人操作等领域应用具有广泛的前景。最近,Mamba架构在高效建模长且复杂的序列方面显示出有希望的结果,然而仍存在两个主要挑战:首先,直接将Mamba应用于扩展运动生成是无效的,因为隐式记忆容量有限,导致记忆衰减。其次,Mamba在多模态融合方面不如Transformer强大,并且在与文本查询对齐方面存在不足之处,经常混淆方向(左或右)或省略较长文本查询的部分。为了解决上述挑战,我们的论文提出了三个关键贡献:首先,我们提出了KMM,这是一种新颖的架构,具备关键帧掩码建模能力,旨在增强Mamba在运动片段中对关键动作的关注度。这种方法解决了记忆衰减的问题,并代表了一种在SSMs中定制战略性帧级掩码的创新方法。此外,我们设计了一种对比学习范式,以解决Mamba中的多模态融合问题并提高运动-文本对齐度。最后,我们在基准数据集BABEL上进行了广泛的实验,实现了最先进的性能,与以前最先进的方法相比,FID减少了超过57%,参数减少了70%。请参见项目网站:
论文:
4. Game-theoretic LLM: Agent Workflow for Negotiation Games
本文探讨了大语言模型(LLMs)在战略决策中的理性性,特别是在博弈论框架下的具体情境。我们评估了几种最先进的LLMs在完全信息和不完全信息博弈中的表现。研究发现,LLMs经常偏离理性策略,尤其是在游戏复杂性增加、顺序树更深时更为明显。
为解决这些局限,我们设计了多种博弈论工作流,以指导LLMs的推理和决策过程。这些工作流旨在增强模型计算纳什均衡和做出理性选择的能力,即使在不确定性条件下也是如此。实验结果表明,采用这些工作流显著提高了LLMs在博弈论任务中的理性性和稳健性。具体而言,使用工作流后,LLMs在识别最优策略、在谈判场景中实现近最优分配以及减少谈判中的可利用性方面表现出明显的改进。
论文:
5. Counterfactual Generation from Language Models
理解并操控语言模型中的因果生成机制对于控制其行为至关重要。先前的工作主要依赖于诸如模型消融或与特定概念相关的线性子空间的操作等技术,来干预这些模型。为了精确理解干预的影响,检查反事实是有帮助的——例如,特定干预后给定句子原本会是如何出现的。我们强调反事实推理与干预在因果层级中的概念是不同的。基于这一观察,我们提出了一种框架,通过将语言模型重新表述为使用Gumbel-max技巧的广义结构方程模型来生成真实的字符串反事实。这使得我们可以建模原始字符串及其反事实的联合分布,这些反事实是由相同的采样噪声实例化产生的。我们开发了一种基于后知后觉Gumbel采样的算法,允许我们推断潜在噪声变量并生成观测字符串的反事实。我们的实验表明,该方法生成了有意义的反事实,同时也显示了常用干预技术有相当大的不可欲副作用。
论文:
点击关注AI-PaperDaily公众号获取、