计算机科学 > 机器学习
[提交于 2025年1月1日
]
标题: 一种用于不平衡训练数据集的成对地理科学数据生成的新扩散模型
标题: A Novel Diffusion Model for Pairwise Geoscience Data Generation with Unbalanced Training Dataset
摘要: 最近,生成式AI技术的出现对我们的日常生活产生了变革性的影响,但其在科学应用中的应用仍处于早期阶段。数据稀缺是数据驱动科学计算中的一个主要且众所周知的障碍,因此物理引导的生成式AI具有重要的前景。在科学计算中,大多数任务研究多种数据模态的转换以描述物理现象,例如地震成像中的空间和波形,信号处理中的时间和频率,以及气候建模中的时间和光谱;因此,需要高度的多模态成对数据生成,而不是通常用于自然图像(例如人脸、风景)的单模态数据生成。此外,在实际应用中,数据在模态方面的不平衡普遍存在;例如,地震成像中的空间数据(即速度图)可以轻松模拟,但真实世界的地震波形却严重缺乏。尽管最近的努力使强大的扩散模型能够生成多模态数据,但如何利用不平衡的可用数据仍然不清楚。在本工作中,我们以地下地球物理学中的地震成像为载体,提出“UB-Diff”,一种用于多模态成对科学数据生成的新扩散模型。一个主要创新是一个一进二出的编码器-解码器网络结构,该结构可以确保从共同潜在表示中获得成对数据。然后,共同潜在表示将被扩散过程用于成对数据生成。在OpenFWI数据集上的实验结果表明,UB-Diff在Fréchet Inception距离(FID)分数和成对评估方面显著优于现有技术,表明生成了可靠且有用得多模态成对数据。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.