计算机科学 > 计算与语言
[提交于 2025年5月29日
]
标题: 基于大型语言模型的研究可重复性代理:阿尔茨海默病的探索性研究
标题: Large Language Model-Based Agents for Automated Research Reproducibility: An Exploratory Study in Alzheimer's Disease
摘要: 目标:展示大型语言模型(LLMs)作为自主代理的能力,使用相同或相似的数据集重现已发表研究论文的结果。 材料与方法:我们使用了国家阿尔茨海默病协调中心(NACC)的“快速访问”数据集。通过NACC数据识别引用率高的已发表研究论文,并选择了五个可以通过该数据集单独重现的研究。 利用GPT-4o,我们创建了一个由基于LLM的自主代理组成的模拟研究团队,任务是编写和执行代码,动态重现每项研究的结果,仅根据研究摘要、方法部分以及数据字典描述。 结果:我们从5个阿尔茨海默病研究的摘要中提取了35个关键发现。 平均而言,LLM代理每项研究大约重现了53.2%的结果。 数值和基于范围的发现经常在研究和代理之间有所不同。 代理还应用了与原始研究不同的统计方法或参数,尽管总体趋势和显著性有时相似。 讨论:在某些情况下,基于LLM的代理复制了研究技术和发现。 在其他情况下,由于实现缺陷或缺失的方法细节而失败。 这些差异显示了LLMs目前在完全自动化重现评估方面的局限性。 然而,这项早期调查突显了基于结构化代理系统的潜力,可以提供科学严谨性的可扩展评估。 结论:这项探索性工作展示了LLMs作为自主代理在生物医学研究中自动重现的潜力和局限性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.