计算机科学 > 机器学习
[提交于 2025年5月30日
]
标题: 超越材料科学中的原子几何表示:一种人机协同的多模态框架
标题: Beyond Atomic Geometry Representations in Materials Science: A Human-in-the-Loop Multimodal Framework
摘要: 大多数材料科学数据集仅限于原子几何结构(例如,XYZ文件),限制了它们在多模态学习和全面以数据为中心的分析中的实用性。 这些约束历史上阻碍了该领域采用先进的机器学习技术。 本研究介绍了一个经过整理的框架 MultiCrystalSpectrumSet (MCS-Set),通过将原子结构与二维投影和结构化文本注释(包括晶格参数和配位度量)相结合,扩展了材料数据集。 MCS-Set 支持两项关键任务:(1) 多模态属性和摘要预测,以及 (2) 带有部分聚类监督的受限晶体生成。 利用人机循环管道,MCS-Set 结合了领域专业知识与标准化描述符,以实现高质量注释。 使用最先进的语言模型和视觉-语言模型的评估揭示了显著的模态特定性能差距,并强调了注释质量对泛化的重要性。 MCS-Set 为基准测试多模态模型、改进注释实践以及推广可访问且多功能的材料科学数据集奠定了基础。 数据集和实现代码可在 https://github.com/KurbanIntelligenceLab/MultiCrystalSpectrumSet 获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.