计算机科学 > 机器学习
[提交于 2024年8月30日
(v1)
,最后修订 2024年10月15日 (此版本, v2)]
标题: 通过可能性的视角重新定义大型语言模型的数据价值
标题: Reframing Data Value for Large Language Models Through the Lens of Plausibility
摘要: 数据估值旨在回答一个重要问题:“这些数据的价值是多少?” 现有的数据估值方法主要集中在判别模型上,主要通过数据在训练中的效用来衡量其价值。然而,随着大规模语言模型的兴起,依赖需要训练的估值方法变得越来越昂贵,并且更加依赖特定技术。 我们为语言模型的数据价值问题提出了一种替代视角,围绕数据的可能性展开讨论。我们认为,如果数据可以被模型本身合理生成,那么它的价值就较低。 从一些符合我们对有价值数据直觉的标准出发,我们开发了一种计算可行且基于第一性原理的新颖价值函数,该函数具有可证明的特性。我们对该价值函数进行了理论分析,并在多个场景和数据集上对其进行了评估。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.