统计学 > 机器学习
[提交于 2017年2月14日
(v1)
,最后修订 2017年2月21日 (此版本, v2)]
标题: 在检测对抗性扰动方面
标题: On Detecting Adversarial Perturbations
摘要: 近年来,机器学习特别是深度学习在感知任务方面取得了巨大进展。 然而,它仍然容易受到经过专门设计的对抗性扰动的影响,这些扰动对人类来说几乎不可察觉,但却能欺骗系统。 在这项工作中,我们提出通过添加一个小型的“检测器”子网络来增强深度神经网络,该子网络在二分类任务上进行训练,以区分真实数据和包含对抗性扰动的数据。 我们的方法与以往针对对抗性扰动的工作是正交的,以往的工作主要集中在使分类网络本身更加鲁棒。 我们通过实验证明,即使对抗性扰动对人类几乎不可察觉,它们也可以被检测到,这令人惊讶。 此外,尽管检测器仅被训练来检测特定的对手,但它们可以推广到类似和较弱的对手。 此外,我们提出了一种同时欺骗分类器和检测器的对抗性攻击,并提出了一种新的检测器训练过程,以抵消这种攻击。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.