计算机科学 > 机器学习
[提交于 2025年7月7日
]
标题: wd1:扩散语言模型推理中的加权策略优化
标题: wd1: Weighted Policy Optimization for Reasoning in Diffusion Language Models
摘要: 通过强化学习(RL)提高基于扩散的大语言模型(dLLMs)的推理能力仍然是一个开放性问题。dLLMs似然函数的不可处理性要求在每次策略优化步骤中近似当前策略、旧策略和参考策略的似然。这种依赖性引入了额外的计算开销,并可能导致较大的偏差——特别是在用于重要性采样的策略比率分母中出现近似误差时。为缓解这些问题,我们引入了$\mathtt{wd1}$,一种新的策略优化方法,将目标重新表述为加权似然,仅需对当前参数化策略似然进行一次近似。在广泛使用的推理基准上的实验表明,$\mathtt{wd1}$在无需监督微调(SFT)或任何监督数据的情况下,优于现有的dLLMs RL方法,准确率最高提高了16%。$\mathtt{wd1}$带来了额外的计算优势,包括减少训练时间和每梯度步骤的函数评估次数(NFEs)。这些发现结合该方法实现的简单性和R1-Zero类似训练(无SFT),使$\mathtt{wd1}$成为应用于dLLMs推理的更有效和高效的RL方法。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.