Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2501.00241

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2501.00241 (cs)
[提交于 2024年12月31日 ]

标题: 探索微调模型在使用DistilBERT进行文本分类中的变异性

标题: Exploring Variability in Fine-Tuned Models for Text Classification with DistilBERT

Authors:Giuliano Lorenzoni, Ivens Portugal, Paulo Alencar, Donald Cowan
摘要: 本研究评估了使用DistilBERT模型进行文本分类的微调策略,特别是distilbert-base-uncased-finetuned-sst-2-english变体。通过结构化的实验,我们考察了学习率、批量大小和轮数等超参数对准确率、F1分数和损失的影响。多项式回归分析捕捉了这些超参数的基础和增量影响,重点关注相对于基准模型的微调调整。结果揭示了由于超参数配置导致的指标变化,显示了性能指标之间的权衡。例如,较高的学习率在相对分析中减少了损失(p=0.027),但对准确率提升构成挑战。同时,批量大小在绝对回归中显著影响准确率和F1分数(p=0.028和p=0.005),但对损失优化的影响有限(p=0.170)。轮数和批量大小之间的交互作用最大化了F1分数(p=0.001),强调了超参数相互作用的重要性。这些发现突显了需要针对非线性超参数交互的微调策略,以在不同指标间平衡性能。这种变化和指标权衡适用于超越文本分类的任务,包括自然语言处理和计算机视觉。这项分析为大型语言模型的微调策略提供了依据,并促进了更广泛模型适用性的自适应设计。
摘要: This study evaluates fine-tuning strategies for text classification using the DistilBERT model, specifically the distilbert-base-uncased-finetuned-sst-2-english variant. Through structured experiments, we examine the influence of hyperparameters such as learning rate, batch size, and epochs on accuracy, F1-score, and loss. Polynomial regression analyses capture foundational and incremental impacts of these hyperparameters, focusing on fine-tuning adjustments relative to a baseline model. Results reveal variability in metrics due to hyperparameter configurations, showing trade-offs among performance metrics. For example, a higher learning rate reduces loss in relative analysis (p=0.027) but challenges accuracy improvements. Meanwhile, batch size significantly impacts accuracy and F1-score in absolute regression (p=0.028 and p=0.005) but has limited influence on loss optimization (p=0.170). The interaction between epochs and batch size maximizes F1-score (p=0.001), underscoring the importance of hyperparameter interplay. These findings highlight the need for fine-tuning strategies addressing non-linear hyperparameter interactions to balance performance across metrics. Such variability and metric trade-offs are relevant for tasks beyond text classification, including NLP and computer vision. This analysis informs fine-tuning strategies for large language models and promotes adaptive designs for broader model applicability.
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI)
引用方式: arXiv:2501.00241 [cs.CL]
  (或者 arXiv:2501.00241v1 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2501.00241
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Giuliano Lorenzoni [查看电子邮件]
[v1] 星期二, 2024 年 12 月 31 日 03:16:15 UTC (531 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-01
切换浏览方式为:
cs.AI
cs.CL

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号