计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月23日
(v1)
,最后修订 2025年7月28日 (此版本, v3)]
标题: Swin-TUNA:一种用于精确食品图像分割的新型PEFT方法
标题: Swin-TUNA : A Novel PEFT Approach for Accurate Food Image Segmentation
摘要: 在食品图像处理领域,高效的语义分割技术对于工业应用至关重要。 然而,现有的大规模基于Transformer的模型(如FoodSAM)由于参数量庞大和计算资源需求高,在满足实际部署要求方面面临挑战。 本文介绍了TUNable Adapter模块(Swin-TUNA),这是一种参数高效的微调(PEFT)方法,将多尺度可训练适配器集成到Swin Transformer架构中,仅更新4%的参数即可实现高性能的食品图像分割。 Swin-TUNA的核心创新在于其分层特征适应机制:它在深度和不同尺度的维度映射中设计了可分离卷积,以解决浅层和深层网络之间特征的差异,并结合任务无关和任务特定特征的动态平衡策略。 实验表明,该方法在FoodSeg103和UECFoodPix Complete数据集上的mIoU分别达到50.56%和74.94%,超越了完全参数化的FoodSAM模型,同时将参数量减少了98.7%(仅剩8.13M)。 此外,Swin-TUNA在低数据场景下表现出更快的收敛速度和更强的泛化能力,为构建轻量级食品图像提供了高效的解决方案。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.