计算机科学 > 计算与语言
[提交于 2025年1月5日
]
标题: Swift跨数据集剪枝:提升自然语言理解中的微调效率
标题: Swift Cross-Dataset Pruning: Enhancing Fine-Tuning Efficiency in Natural Language Understanding
摘要: 数据集剪枝旨在选择数据集的一个子集以实现高效的模型训练。 虽然自然语言处理中的数据效率主要集中在模型预训练期间的语料库内场景,但由于数据集大小、数据分布、类别不平衡和标签空间的差异,跨不同数据集的任务特定微调的高效数据集剪枝仍然具有挑战性。 当前的跨数据集微调剪枝技术通常依赖于计算成本高昂的样本排序过程,通常需要完整的数据集训练或参考模型。 我们通过提出Swift跨数据集剪枝(SCDP)来解决这一问题。 具体而言,我们的方法使用TF-IDF嵌入和几何中位数快速评估样本的重要性。 然后,我们应用与数据集大小适应的剪枝以确保多样性:对于较小的数据集,我们保留远离几何中位数的样本,而对于较大的数据集,我们采用基于距离的分层剪枝。 在六个多样化数据集上的实验结果证明了我们方法的有效性,在各种任务和规模上显著减少了计算资源。 源代码可在以下地址获取:https://github.com/he-y/NLP-Dataset-Pruning
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.