计算机科学 > 计算机视觉与模式识别
[提交于 2025年4月30日
]
标题: eNCApsulate: 用于胶囊内窥镜精确诊断的NCA
标题: eNCApsulate: NCA for Precision Diagnosis on Capsule Endoscopes
摘要: 无线胶囊内窥镜是一种用于整个胃肠道的非侵入性成像方法,是传统内窥镜无痛替代方案。 它生成了大量视频数据,需要大量审查时间,并且吞咽后定位胶囊是一个挑战。 出血检测和深度估计等技术可以帮助病灶定位,但深度学习模型通常太大,无法直接在胶囊上运行。 针对出血分割和深度估计的神经细胞自动机(NCA)是在胶囊内窥镜图像上训练的。 对于单目深度估计,我们通过将基础模型的输出作为伪地面实况来蒸馏一个大型基础模型到精简的NCA架构中。 然后我们将训练好的NCA移植到ESP32微控制器上,在硬件上实现高效的图像处理,小到相机胶囊。 与其它便携式分割模型相比,NCA更准确(Dice),同时比其他小型模型存储在内存中的参数少100倍以上。 NCA深度估计的视觉结果看起来令人信服,在某些情况下甚至超过了伪地面实况的真实性与细节。 在ESP32-S3上的运行时优化显著加速了平均推理速度,超过3倍。 通过几项算法调整和蒸馏,可以将NCA模型封装到适合无线胶囊内窥镜的微控制器中。 这是首个能够在微型设备上实现可靠出血分割和深度估计的工作,为结合视觉里程计作为胶囊精确定位手段的精确诊断铺平了道路。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.