Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.16330

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2507.16330 (cs)
[提交于 2025年7月22日 ]

标题: 场景文本检测与识别 使用Aria眼镜第一视角视觉相机在具有挑战性的环境条件下的情况

标题: Scene Text Detection and Recognition "in light of" Challenging Environmental Conditions using Aria Glasses Egocentric Vision Cameras

Authors:Joseph De Mathia, Carlos Francisco Moreno-García
摘要: 在可穿戴技术重塑应用的时代,通过第一视角视觉,场景文本检测与识别(STDR)成为一种直接的选择。利用Meta的Project Aria智能眼镜,本文研究了环境变量,如光照、距离和分辨率,如何影响最先进的STDR算法在现实场景中的性能。我们引入了一个新型的、定制构建的数据集,在受控条件下采集,并评估了两种OCR流程:EAST结合CRNN,以及EAST结合PyTesseract。我们的研究结果表明,分辨率和距离显著影响识别准确性,而光照的作用则不太可预测。值得注意的是,图像上采样作为一种关键的预处理技术,将字符错误率(CER)从0.65降低到0.48。我们进一步展示了整合眼动追踪以优化处理效率的潜力,通过专注于用户关注区域。这项工作不仅在现实条件下基准测试了STDR的性能,还为自适应、用户感知的增强现实系统奠定了基础。我们的贡献旨在激发未来在辅助和研究导向应用中稳健、上下文敏感的文本识别研究,例如资产检查和营养分析。代码可在https://github.com/josepDe/Project_Aria_STR获取。
摘要: In an era where wearable technology is reshaping applications, Scene Text Detection and Recognition (STDR) becomes a straightforward choice through the lens of egocentric vision. Leveraging Meta's Project Aria smart glasses, this paper investigates how environmental variables, such as lighting, distance, and resolution, affect the performance of state-of-the-art STDR algorithms in real-world scenarios. We introduce a novel, custom-built dataset captured under controlled conditions and evaluate two OCR pipelines: EAST with CRNN, and EAST with PyTesseract. Our findings reveal that resolution and distance significantly influence recognition accuracy, while lighting plays a less predictable role. Notably, image upscaling emerged as a key pre-processing technique, reducing Character Error Rate (CER) from 0.65 to 0.48. We further demonstrate the potential of integrating eye-gaze tracking to optimise processing efficiency by focusing on user attention zones. This work not only benchmarks STDR performance under realistic conditions but also lays the groundwork for adaptive, user-aware AR systems. Our contributions aim to inspire future research in robust, context-sensitive text recognition for assistive and research-oriented applications, such as asset inspection and nutrition analysis. The code is available at https://github.com/josepDe/Project_Aria_STR.
评论: 15页,8图
主题: 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2507.16330 [cs.CV]
  (或者 arXiv:2507.16330v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.16330
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Carlos Francisco Moreno-Garcia [查看电子邮件]
[v1] 星期二, 2025 年 7 月 22 日 08:12:00 UTC (2,605 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs.CV

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号