计算机科学 > 人工智能
标题: 推理流程:使用最少示例训练大语言模型进行发散问题解决
标题: Flow of Reasoning:Training LLMs for Divergent Problem Solving with Minimal Examples
摘要: 生成给定问题的多种解决方案的能力是人类创造力的显著特征。 这种发散性推理对机器也很重要,可以增强其鲁棒性,并使其在许多应用中协助人类,例如科学发现。 然而,现有的基于大型语言模型(LLMs)的多步骤推理方法大多只关注推理准确性,而没有进一步发现更多多样化的有效解决方案。 例如,监督微调可以提高LLM的推理质量,但需要大量监督数据来捕捉所有可能的解决方案范围。 强化学习旨在寻找有限的最高奖励解决方案,而忽略了解决方案的多样性。 为了填补这一空白,我们提出了 推理流(FoR),一种高效的多样性探索LLM微调方法,旨在用最少的数据提高推理质量和多样性。 FoR将多步骤LLM推理形式化为DAG结构的推理图上的马尔可夫流。 这种形式化使我们能够纳入并适应有原则的 GFlowNet方法,用于微调LLM以按目标问题的(未归一化)奖励概率采样多样化的推理路径。 大量实验表明,使用有限的训练示例(例如,15个示例),FoR能够发现多样化的、富有创意的高质量解决方案,在五个具有挑战性的谜题解决任务中,包括 BlocksWorld(具身推理)、Game24(数学谜题解决)、魔方 (空间推理)、1D-ARC(抽象推理)和PrOntoQA(逻辑推理),显著优于一系列现有的推理和训练方法。 代码可在 https://github.com/Yu-Fangxu/FoR 获取。
提交历史
来自: Fangxu Yu [查看电子邮件][v1] 星期日, 2024 年 6 月 9 日 07:06:58 UTC (313 KB)
[v2] 星期一, 2024 年 6 月 24 日 15:49:09 UTC (313 KB)
[v3] 星期五, 2024 年 10 月 4 日 15:14:55 UTC (314 KB)
[v4] 星期五, 2025 年 2 月 21 日 16:17:17 UTC (675 KB)
[v5] 星期六, 2025 年 3 月 8 日 13:10:25 UTC (690 KB)
[v6] 星期二, 2025 年 5 月 27 日 03:51:13 UTC (469 KB)
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.