Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2003.02932

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2003.02932 (cs)
[提交于 2020年3月5日 ]

标题: 带有应用的博弈论模式估计的鲁棒性保证

标题: Robustness Guarantees for Mode Estimation with an Application to Bandits

Authors:Aldo Pacchiano, Heinrich Jiang, Michael I. Jordan
摘要: 模式估计是统计学中的一个经典问题,在机器学习中有广泛的应用。尽管如此,对于在可能的对抗性数据污染下的鲁棒性特性,了解仍然有限。在本文中,我们在简单的随机化下给出了精确的鲁棒性保证以及隐私保证。然后,我们引入了一个多臂老虎机理论,其中值是奖励分布的模式而不是均值。我们证明了顶级臂识别、顶级m臂识别、上下文模式老虎机和无限连续臂顶级臂恢复问题的遗憾保证。我们在模拟中展示了我们的算法对由对抗性噪声序列引起的臂的扰动具有鲁棒性,因此使得模式老虎机在奖励可能包含异常值或对抗性破坏的情况下成为一个有吸引力的选择。
摘要: Mode estimation is a classical problem in statistics with a wide range of applications in machine learning. Despite this, there is little understanding in its robustness properties under possibly adversarial data contamination. In this paper, we give precise robustness guarantees as well as privacy guarantees under simple randomization. We then introduce a theory for multi-armed bandits where the values are the modes of the reward distributions instead of the mean. We prove regret guarantees for the problems of top arm identification, top m-arms identification, contextual modal bandits, and infinite continuous arms top arm recovery. We show in simulations that our algorithms are robust to perturbation of the arms by adversarial noise sequences, thus rendering modal bandits an attractive choice in situations where the rewards may have outliers or adversarial corruptions.
评论: 12页,7图,14附录页
主题: 机器学习 (cs.LG) ; 机器学习 (stat.ML)
引用方式: arXiv:2003.02932 [cs.LG]
  (或者 arXiv:2003.02932v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2003.02932
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Aldo Pacchiano [查看电子邮件]
[v1] 星期四, 2020 年 3 月 5 日 21:29:27 UTC (377 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
查看许可
当前浏览上下文:
stat.ML
< 上一篇   |   下一篇 >
新的 | 最近的 | 2020-03
切换浏览方式为:
cs
cs.LG
stat

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号