凝聚态物理 > 材料科学
[提交于 2024年10月31日
(v1)
,最后修订 2024年11月30日 (此版本, v3)]
标题: LLM4Mat-Bench:材料性质预测的大语言模型基准测试
标题: LLM4Mat-Bench: Benchmarking Large Language Models for Materials Property Prediction
摘要: 大型语言模型(LLMs)在材料科学中被越来越多地使用。 然而,对于基于LLM的材料性质预测的基准测试和标准化评估关注很少,这阻碍了进展。 我们提出了LLM4Mat-Bench,这是目前最大的基准测试,用于评估LLM在预测晶体材料性质方面的性能。 LLM4Mat-Bench总共包含约190万种晶体结构,来自10个公开的材料数据源,并包含45种不同的性质。 LLM4Mat-Bench具有不同的输入模态:晶体组成、CIF和晶体文本描述,每种模态的总令牌数分别为470万、61550万和310亿。 我们使用LLM4Mat-Bench对不同规模的模型进行微调,包括LLM-Prop和MatBERT,并提供零样本和少量样本提示来评估类似LLM-chat的模型的性质预测能力,包括Llama、Gemma和Mistral。 结果突显了通用LLM在材料科学中的挑战,以及在材料性质预测中需要任务特定的预测模型和任务特定的指令调优LLM。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.