计算机科学 > 计算与语言
[提交于 2025年9月2日
]
标题: SSVD:用于语音识别中领域偏移下的结构化奇异值分解参数高效微调和基准测试
标题: SSVD: Structured SVD for Parameter-Efficient Fine-Tuning and Benchmarking under Domain Shift in ASR
摘要: 参数高效微调(PEFT)已成为适应大型基础模型的可扩展解决方案。 虽然低秩微调(LoRA)在语音应用中被广泛使用,但其最先进的变体,例如VeRA、DoRA、PiSSA和SVFT,主要是为语言和视觉任务开发的,在语音领域验证有限。 这项工作首次在ESPnet中全面整合并基准测试了这些PEFT方法。 我们进一步引入了结构化奇异值分解引导(SSVD)微调,该方法选择性地旋转与输入相关的右奇异向量,同时保持与输出相关的向量固定,以保留语义映射。 这种设计能够在少量可训练参数的情况下实现稳健的领域适应,并提高效率。 我们在从0.1B到2B的不同模型规模上,对领域转移的语音识别任务进行了所有方法的评估,包括儿童语音和方言变化。 所有实现都已在ESPnet中发布,以支持可重复性和未来工作。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.