Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2510.16208

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2510.16208 (cs)
[提交于 2025年10月17日 ]

标题: 探索然后承诺用于具有潜在动态的非平稳线性老虎机

标题: Explore-then-Commit for Nonstationary Linear Bandits with Latent Dynamics

Authors:Sunmook Choi, Yahya Sattar, Yassir Jedra, Maryam Fazel, Sarah Dean
摘要: 我们研究一个非平稳的老虎机问题,其中奖励取决于动作和潜在状态,后者由未知的线性动力学控制。 关键的是,状态动力学也依赖于动作,这导致了短期和长期奖励之间的矛盾。 我们为有限时间范围的$T$提出了一种探索后决策算法。 在探索阶段,随机Rademacher动作使得能够估计线性动力学的马尔可夫参数,这些参数描述了动作与奖励之间的关系。 在决策阶段,该算法利用估计的参数设计一个优化的动作序列以实现长期奖励。 我们提出的算法实现了$\tilde{\mathcal{O}}(T^{2/3})$的遗憾。 我们的分析处理了两个关键挑战:从时间相关奖励中学习,以及设计具有最优长期奖励的动作序列。 我们通过提供使用双线性奖励进行系统识别的接近最优的样本复杂度和误差界限来解决第一个挑战。 我们通过证明与超立方体上的不定二次优化的等价性来解决第二个挑战,这是一个已知的NP难问题。 我们为此问题提供了次优性保证,从而实现了我们的遗憾上界。 最后,我们提出了一种半定松弛结合Goemans-Williamson舍入作为一种实用的方法。
摘要: We study a nonstationary bandit problem where rewards depend on both actions and latent states, the latter governed by unknown linear dynamics. Crucially, the state dynamics also depend on the actions, resulting in tension between short-term and long-term rewards. We propose an explore-then-commit algorithm for a finite horizon $T$. During the exploration phase, random Rademacher actions enable estimation of the Markov parameters of the linear dynamics, which characterize the action-reward relationship. In the commit phase, the algorithm uses the estimated parameters to design an optimized action sequence for long-term reward. Our proposed algorithm achieves $\tilde{\mathcal{O}}(T^{2/3})$ regret. Our analysis handles two key challenges: learning from temporally correlated rewards, and designing action sequences with optimal long-term reward. We address the first challenge by providing near-optimal sample complexity and error bounds for system identification using bilinear rewards. We address the second challenge by proving an equivalence with indefinite quadratic optimization over a hypercube, a known NP-hard problem. We provide a sub-optimality guarantee for this problem, enabling our regret upper bound. Lastly, we propose a semidefinite relaxation with Goemans-Williamson rounding as a practical approach.
主题: 机器学习 (cs.LG) ; 系统与控制 (eess.SY); 优化与控制 (math.OC); 机器学习 (stat.ML)
引用方式: arXiv:2510.16208 [cs.LG]
  (或者 arXiv:2510.16208v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2510.16208
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Sunmook Choi [查看电子邮件]
[v1] 星期五, 2025 年 10 月 17 日 20:41:14 UTC (710 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
eess
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-10
切换浏览方式为:
cs
cs.LG
cs.SY
eess.SY
math
math.OC
stat
stat.ML

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号