计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月22日
]
标题: 场景文本检测与识别 使用Aria眼镜第一视角视觉相机在具有挑战性的环境条件下的情况
标题: Scene Text Detection and Recognition "in light of" Challenging Environmental Conditions using Aria Glasses Egocentric Vision Cameras
摘要: 在可穿戴技术重塑应用的时代,通过第一视角视觉,场景文本检测与识别(STDR)成为一种直接的选择。利用Meta的Project Aria智能眼镜,本文研究了环境变量,如光照、距离和分辨率,如何影响最先进的STDR算法在现实场景中的性能。我们引入了一个新型的、定制构建的数据集,在受控条件下采集,并评估了两种OCR流程:EAST结合CRNN,以及EAST结合PyTesseract。我们的研究结果表明,分辨率和距离显著影响识别准确性,而光照的作用则不太可预测。值得注意的是,图像上采样作为一种关键的预处理技术,将字符错误率(CER)从0.65降低到0.48。我们进一步展示了整合眼动追踪以优化处理效率的潜力,通过专注于用户关注区域。这项工作不仅在现实条件下基准测试了STDR的性能,还为自适应、用户感知的增强现实系统奠定了基础。我们的贡献旨在激发未来在辅助和研究导向应用中稳健、上下文敏感的文本识别研究,例如资产检查和营养分析。代码可在https://github.com/josepDe/Project_Aria_STR获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.