计算机科学 > 计算与语言
[提交于 2025年1月2日
]
标题: 针对对立论点的大型语言模型忠实完整性对齐
标题: Aligning Large Language Models for Faithful Integrity Against Opposing Argument
摘要: 大型语言模型(LLMs)在复杂推理任务中展示了令人印象深刻的能力。 然而,在对话中,它们可能会被不忠实的论点误导,即使它们最初的陈述是正确的。 为此,我们研究了保持LLMs忠实完整性的问题。 这包括确保LLMs在面对相反论点时遵守其忠实的陈述,并且在提出忠实论点时能够纠正其错误的陈述。 在这项工作中,我们提出了一种新的框架,名为基于置信度估计的忠实完整性对齐(AFICE),旨在使LLM的响应与忠实完整性对齐。 具体来说,AFICE首先设计了一种双边置信度估计(BCE)方法,用于估计在特定上下文中LLM生成的每个响应的不确定性,该方法同时根据解码过程中的内部状态估计模型对问题的置信度以及根据累积概率比估计模型对答案的置信度。 通过BCE,我们构建了一个包含上下文、原始陈述和论点的对话偏好数据集,该数据集用于使用直接偏好优化(DPO)对LLM进行忠实完整性对齐。 在广泛基准上的大量实验结果表明,当遇到相反论点时,LLM保持忠实响应的能力有了显著提升,确保了LLM在复杂交互环境中的实际效用和可信度。 代码和数据将通过https://github.com/zhaoy777/AFICE.git发布
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.