计算机科学 > 机器学习
[提交于 2025年10月17日
(此版本)
, 最新版本 2025年10月21日 (v2)
]
标题: 基于运行时监控语言的表达性奖励合成
标题: Expressive Reward Synthesis with the Runtime Monitoring Language
摘要: 强化学习(RL)中的一个关键挑战是奖励(错误)规范问题,其中定义不明确的奖励函数可能导致意外的、可能有害的行为。 事实上,在RL中,奖励函数通常被视为从状态-动作对到标量值的黑盒映射。 虽然在许多设置中有效,但这种方法无法提供奖励给出的原因的信息,这可能会阻碍学习和可解释性。 奖励机器通过将奖励函数表示为有限状态自动机来解决这个问题,从而能够指定结构化的非马尔可夫奖励函数。 然而,它们的表达能力通常受到正则语言的限制,使其无法捕捉更复杂的行为,例如计数或参数化条件。 在本工作中,我们基于运行时监控语言(RML)开发了一类基于语言的奖励机器。 通过利用RML内置的内存,我们的方法可以为非正则、非马尔可夫任务指定奖励函数。 我们通过实验展示了我们方法的表达能力,并突出了在灵活事件处理和任务规范方面相对于现有基于奖励机器的方法的额外优势。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.