Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2505.23852

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2505.23852 (cs)
[提交于 2025年5月29日 ]

标题: 基于大型语言模型的研究可重复性代理:阿尔茨海默病的探索性研究

标题: Large Language Model-Based Agents for Automated Research Reproducibility: An Exploratory Study in Alzheimer's Disease

Authors:Nic Dobbins, Christelle Xiong, Kristine Lan, Meliha Yetisgen
摘要: 目标:展示大型语言模型(LLMs)作为自主代理的能力,使用相同或相似的数据集重现已发表研究论文的结果。 材料与方法:我们使用了国家阿尔茨海默病协调中心(NACC)的“快速访问”数据集。通过NACC数据识别引用率高的已发表研究论文,并选择了五个可以通过该数据集单独重现的研究。 利用GPT-4o,我们创建了一个由基于LLM的自主代理组成的模拟研究团队,任务是编写和执行代码,动态重现每项研究的结果,仅根据研究摘要、方法部分以及数据字典描述。 结果:我们从5个阿尔茨海默病研究的摘要中提取了35个关键发现。 平均而言,LLM代理每项研究大约重现了53.2%的结果。 数值和基于范围的发现经常在研究和代理之间有所不同。 代理还应用了与原始研究不同的统计方法或参数,尽管总体趋势和显著性有时相似。 讨论:在某些情况下,基于LLM的代理复制了研究技术和发现。 在其他情况下,由于实现缺陷或缺失的方法细节而失败。 这些差异显示了LLMs目前在完全自动化重现评估方面的局限性。 然而,这项早期调查突显了基于结构化代理系统的潜力,可以提供科学严谨性的可扩展评估。 结论:这项探索性工作展示了LLMs作为自主代理在生物医学研究中自动重现的潜力和局限性。
摘要: Objective: To demonstrate the capabilities of Large Language Models (LLMs) as autonomous agents to reproduce findings of published research studies using the same or similar dataset. Materials and Methods: We used the "Quick Access" dataset of the National Alzheimer's Coordinating Center (NACC). We identified highly cited published research manuscripts using NACC data and selected five studies that appeared reproducible using this dataset alone. Using GPT-4o, we created a simulated research team of LLM-based autonomous agents tasked with writing and executing code to dynamically reproduce the findings of each study, given only study Abstracts, Methods sections, and data dictionary descriptions of the dataset. Results: We extracted 35 key findings described in the Abstracts across 5 Alzheimer's studies. On average, LLM agents approximately reproduced 53.2% of findings per study. Numeric values and range-based findings often differed between studies and agents. The agents also applied statistical methods or parameters that varied from the originals, though overall trends and significance were sometimes similar. Discussion: In some cases, LLM-based agents replicated research techniques and findings. In others, they failed due to implementation flaws or missing methodological detail. These discrepancies show the current limits of LLMs in fully automating reproducibility assessments. Still, this early investigation highlights the potential of structured agent-based systems to provide scalable evaluation of scientific rigor. Conclusion: This exploratory work illustrates both the promise and limitations of LLMs as autonomous agents for automating reproducibility in biomedical research.
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI); 多智能体系统 (cs.MA); 应用 (stat.AP)
引用方式: arXiv:2505.23852 [cs.CL]
  (或者 arXiv:2505.23852v1 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2505.23852
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Minqi Xiong [查看电子邮件]
[v1] 星期四, 2025 年 5 月 29 日 01:31:55 UTC (178 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-05
切换浏览方式为:
cs
cs.AI
cs.MA
stat
stat.AP

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号