Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2505.03856

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2505.03856 (cs)
[提交于 2025年5月6日 ]

标题: 一个关于显性和隐性视觉注意力的主动推理模型

标题: An Active Inference Model of Covert and Overt Visual Attention

Authors:Tin Mišić, Karlo Koledić, Fabio Bonsignorio, Ivan Petrović, Ivan Marković
摘要: 选择性地关注相关刺激并过滤掉干扰对于处理复杂高维感官输入的代理来说至关重要。 本文通过主动推理框架引入了一个关于显性和隐性视觉注意的模型,利用感觉精度的动态优化来最小化自由能。 该模型根据当前环境信念和感官输入确定视觉感官精度,影响显性和隐性模式下的注意力分配。 为了测试模型的有效性,我们分析了它在波斯纳提示任务和使用二维视觉数据的简单目标聚焦任务中的行为。 测量反应时间以研究外源性和内源性注意力以及有效和无效提示之间的相互作用。 结果显示,外源性和有效提示通常比内源性和无效提示导致更快的反应时间。 此外,该模型表现出类似于返回抑制的行为,在特定的提示-目标启动异步间隔后,先前注意的位置会受到抑制。 最后,我们调查了显性注意的不同方面,结果显示不自主的反射性扫视比有意的扫视发生得更快,但代价是适应性较差。
摘要: The ability to selectively attend to relevant stimuli while filtering out distractions is essential for agents that process complex, high-dimensional sensory input. This paper introduces a model of covert and overt visual attention through the framework of active inference, utilizing dynamic optimization of sensory precisions to minimize free-energy. The model determines visual sensory precisions based on both current environmental beliefs and sensory input, influencing attentional allocation in both covert and overt modalities. To test the effectiveness of the model, we analyze its behavior in the Posner cueing task and a simple target focus task using two-dimensional(2D) visual data. Reaction times are measured to investigate the interplay between exogenous and endogenous attention, as well as valid and invalid cueing. The results show that exogenous and valid cues generally lead to faster reaction times compared to endogenous and invalid cues. Furthermore, the model exhibits behavior similar to inhibition of return, where previously attended locations become suppressed after a specific cue-target onset asynchrony interval. Lastly, we investigate different aspects of overt attention and show that involuntary, reflexive saccades occur faster than intentional ones, but at the expense of adaptability.
评论: 7页,7幅图。代码可在 <https://github.com/unizgfer-lamor/ainf-visual-attention> 获取。
主题: 计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI)
ACM 类: I.2.6; I.2.10
引用方式: arXiv:2505.03856 [cs.CV]
  (或者 arXiv:2505.03856v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2505.03856
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Tin Mišić [查看电子邮件]
[v1] 星期二, 2025 年 5 月 6 日 09:26:00 UTC (1,160 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
q-bio.NC
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-05
切换浏览方式为:
cs
cs.AI
cs.CV

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号