计算机科学 > 计算与语言
[提交于 2024年12月31日
]
标题: 探索微调模型在使用DistilBERT进行文本分类中的变异性
标题: Exploring Variability in Fine-Tuned Models for Text Classification with DistilBERT
摘要: 本研究评估了使用DistilBERT模型进行文本分类的微调策略,特别是distilbert-base-uncased-finetuned-sst-2-english变体。通过结构化的实验,我们考察了学习率、批量大小和轮数等超参数对准确率、F1分数和损失的影响。多项式回归分析捕捉了这些超参数的基础和增量影响,重点关注相对于基准模型的微调调整。结果揭示了由于超参数配置导致的指标变化,显示了性能指标之间的权衡。例如,较高的学习率在相对分析中减少了损失(p=0.027),但对准确率提升构成挑战。同时,批量大小在绝对回归中显著影响准确率和F1分数(p=0.028和p=0.005),但对损失优化的影响有限(p=0.170)。轮数和批量大小之间的交互作用最大化了F1分数(p=0.001),强调了超参数相互作用的重要性。这些发现突显了需要针对非线性超参数交互的微调策略,以在不同指标间平衡性能。这种变化和指标权衡适用于超越文本分类的任务,包括自然语言处理和计算机视觉。这项分析为大型语言模型的微调策略提供了依据,并促进了更广泛模型适用性的自适应设计。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.