计算机科学 > 机器学习
[提交于 2024年11月28日
(v1)
,最后修订 2024年12月10日 (此版本, v2)]
标题: 缩放粒子碰撞数据分析
标题: Scaling Particle Collision Data Analysis
摘要: 几十年来,研究人员已经开发了任务特定的模型,以解决跨不同学科的科学挑战。 最近,大型语言模型(LLMs)在处理通用任务方面表现出巨大的能力;然而,这些模型在解决现实世界的科学问题时遇到了困难,特别是在涉及大规模数值数据分析的领域,如实验高能物理。 这种限制主要是由于BPE分词方法在数值数据上的无效性。 在本文中,我们提出了一种任务无关的架构BBT-Neutron,该架构采用二进制分词方法,以促进在文本和大规模数值实验数据混合数据上的预训练。 我们展示了BBT-Neutron在喷注起源识别(JoI)中的应用,这是高能物理中一个关键的分类挑战,用于区分来自不同夸克或胶子的喷注。 我们的结果表明,BBT-Neutron的性能与最先进的任务特定JoI模型相当。 此外,我们研究了BBT-Neutron性能随着数据量增加的扩展行为,表明BBT-Neutron有可能作为粒子物理数据分析的基础模型,并可能扩展到广泛科学计算应用,包括大科学实验、工业制造和空间计算。 该项目代码可在https://github.com/supersymmetry-technologies/bbt-neutron获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.