计算机科学 > 机器学习
[提交于 2025年10月17日
]
标题: 探索然后承诺用于具有潜在动态的非平稳线性老虎机
标题: Explore-then-Commit for Nonstationary Linear Bandits with Latent Dynamics
摘要: 我们研究一个非平稳的老虎机问题,其中奖励取决于动作和潜在状态,后者由未知的线性动力学控制。 关键的是,状态动力学也依赖于动作,这导致了短期和长期奖励之间的矛盾。 我们为有限时间范围的$T$提出了一种探索后决策算法。 在探索阶段,随机Rademacher动作使得能够估计线性动力学的马尔可夫参数,这些参数描述了动作与奖励之间的关系。 在决策阶段,该算法利用估计的参数设计一个优化的动作序列以实现长期奖励。 我们提出的算法实现了$\tilde{\mathcal{O}}(T^{2/3})$的遗憾。 我们的分析处理了两个关键挑战:从时间相关奖励中学习,以及设计具有最优长期奖励的动作序列。 我们通过提供使用双线性奖励进行系统识别的接近最优的样本复杂度和误差界限来解决第一个挑战。 我们通过证明与超立方体上的不定二次优化的等价性来解决第二个挑战,这是一个已知的NP难问题。 我们为此问题提供了次优性保证,从而实现了我们的遗憾上界。 最后,我们提出了一种半定松弛结合Goemans-Williamson舍入作为一种实用的方法。
当前浏览上下文:
eess
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.