统计学 > 机器学习
[提交于 2025年10月9日
]
标题: 超越真实数据:通过正则化的合成数据
标题: Beyond Real Data: Synthetic Data through the Lens of Regularization
摘要: 当真实数据稀缺时,合成数据可以提高泛化能力,但过度依赖可能会引入分布不匹配,从而降低性能。 在本文中,我们提出一个学习理论框架,以量化合成数据和真实数据之间的权衡。 我们的方法利用算法稳定性来推导泛化误差界,表征使期望测试误差最小化的最优合成数据与真实数据比例,该比例作为真实分布和合成分布之间Wasserstein距离的函数。 我们在混合数据的核岭回归设置中提出了该框架,并提供了可能具有独立兴趣的详细分析。 我们的理论预测了最优比例的存在,导致测试误差相对于合成数据比例呈U型变化。 经验上,我们在CIFAR-10和一个临床脑部MRI数据集上验证了这一预测。 我们的理论扩展到领域自适应的重要场景,表明谨慎地将合成目标数据与有限的源数据结合可以缓解领域偏移并增强泛化能力。 最后,我们给出了将我们的结果应用于领域内和领域外场景的实际指导。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.