统计学 > 机器学习
[提交于 2024年12月23日
]
标题: 数据放大理论上的限制
标题: An information theoretic limit to data amplification
摘要: 近年来,生成式人工智能已被用于创建支持科学分析的数据。 例如,生成对抗网络(GANs)已使用蒙特卡罗模拟的输入进行训练,然后用于生成相同问题的数据。 这具有显著减少计算时间的优点。 GAN 的 N 个训练事件可以生成 GN 个事件,增益因子 G 大于 1。 这似乎违反了不能免费获得信息的原则。 这不是放大数据的唯一方式,因此该过程将被称为数据放大,它使用信息论概念进行研究。 研究表明,可以在保持数据信息内容不变的情况下实现大于 1 的增益。 这导致了一个仅依赖于生成和训练事件数量的数学界限。 本研究确定了确保这一界限的潜在概率分布和重建概率分布的条件。 特别是,放大数据中变量的分辨率不会因该过程而改善,但样本量的增加仍可提高统计显著性。 该界限通过计算机模拟以及文献中 GAN 生成数据的分析得到证实。
当前浏览上下文:
physics.data-an
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.