Minimalistic Video Saliency Prediction via Efficient Decoder & Spatio Temporal Action Cues

Girmaji, Rohit; Jain, Siddharth; Beri, Bhav; Bansal, Sarthak; Gandhi, Vineet

Computer Science > Computer Vision and Pattern Recognition

arXiv:2502.00397 (cs)

[Submitted on 1 Feb 2025 ]

Title: Minimalistic Video Saliency Prediction via Efficient Decoder & Spatio Temporal Action Cues

Title: 通过高效解码器和时空动作线索的极简视频显著性预测

Authors:Rohit Girmaji, Siddharth Jain, Bhav Beri, Sarthak Bansal, Vineet Gandhi

Abstract: This paper introduces ViNet-S, a 36MB model based on the ViNet architecture with a U-Net design, featuring a lightweight decoder that significantly reduces model size and parameters without compromising performance. Additionally, ViNet-A (148MB) incorporates spatio-temporal action localization (STAL) features, differing from traditional video saliency models that use action classification backbones. Our studies show that an ensemble of ViNet-S and ViNet-A, by averaging predicted saliency maps, achieves state-of-the-art performance on three visual-only and six audio-visual saliency datasets, outperforming transformer-based models in both parameter efficiency and real-time performance, with ViNet-S reaching over 1000fps.

Abstract: 本文介绍了ViNet-S，一个基于ViNet架构的36MB模型，采用U-Net设计，具有轻量级解码器，显著减少了模型大小和参数而不会影响性能。此外， ViNet-A（148MB）结合了时空动作定位（STAL）特征，不同于传统视频显著性模型使用的动作分类主干。我们的研究表明，通过平均预测的显著性图，ViNet-S和ViNet-A的集成在三个仅视觉和六个视听显著性数据集上实现了最先进的性能，其参数效率和实时性能均优于基于变压器的模型，ViNet-S的帧率超过1000fps。

Comments:	Accepted at 2025 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2025)
Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2502.00397 [cs.CV]
	(or arXiv:2502.00397v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2502.00397

Submission history

From: Bhav Beri [view email]
[v1] Sat, 1 Feb 2025 11:05:28 UTC (16,473 KB)

Computer Science > Computer Vision and Pattern Recognition

Title: Minimalistic Video Saliency Prediction via Efficient Decoder & Spatio Temporal Action Cues

Title: 通过高效解码器和时空动作线索的极简视频显著性预测

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title: Minimalistic Video Saliency Prediction via Efficient Decoder & Spatio Temporal Action Cues Show Chinese title

Title: 通过高效解码器和时空动作线索的极简视频显著性预测

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Title: Minimalistic Video Saliency Prediction via Efficient Decoder & Spatio Temporal Action Cues