计算机科学 > 计算与语言
[提交于 2025年10月16日
]
标题: MetaBench:代谢组学中评估大语言模型的多任务基准
标题: MetaBench: A Multi-task Benchmark for Assessing LLMs in Metabolomics
摘要: 大型语言模型(LLMs)在通用文本上表现出色;然而,它们在需要深度和相互关联知识的专门科学领域中的能力仍 largely 未被描述。 代谢组学面临着独特的挑战,包括复杂的生化途径、异构的标识符系统和碎片化的数据库。 为了系统评估该领域的LLM能力,我们引入了MetaBench,这是第一个用于代谢组学评估的基准。 从权威的公开资源中整理而来,MetaBench评估了代谢组学研究中五个关键能力:知识、理解、定位、推理和研究。 我们对25个开源和闭源LLM的评估揭示了在代谢组学任务中的不同性能模式:尽管模型在文本生成任务中表现良好,但跨数据库标识符定位即使在检索增强的情况下仍然具有挑战性。 对于注释稀疏的长尾代谢物,模型性能也会下降。 通过MetaBench,我们提供了开发和评估代谢组学AI系统的必要基础设施,推动可靠计算工具在代谢组学研究中的系统性进展。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.