定量生物学 > 基因组学
[提交于 2025年10月14日
]
标题: 相同模型,更好性能:洗牌对DNA语言模型基准测试的影响
标题: Same model, better performance: the impact of shuffling on DNA Language Models benchmarking
摘要: 大型语言模型在基因组学中越来越受欢迎,因为它们有望解码复杂的生物序列。 因此,研究人员需要一个标准化的基准来评估DNA语言模型(DNA LMs)的能力。 然而,评估DNA LMs是一个复杂的任务,它结合了基因组学领域的特定挑战和机器学习方法,其中看似微小的实现细节可能会显著损害基准的有效性。 我们通过BEND(基准测试DNA语言模型)展示了这一点,其中与硬件相关的超参数——数据加载工作数量和缓冲区大小——会导致相同模型的性能变化高达4%。 问题源于数据洗牌不足与领域特定数据特征的相互作用。 对三种DNA语言模型(HyenaDNA、DNABERT-2、ResNet-LM)的实验表明,这些伪影会影响绝对性能和相对模型排名。 我们提出一个简单的解决方案:在存储前对数据进行预洗牌,可以消除硬件依赖性,同时保持效率。 这项工作突显了标准机器学习实践如何与领域特定的数据特征意外交互,这对专业领域的基准设计有更广泛的影响。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.