计算机视觉与模式识别

2025年06月的作者和标题

总共 3129 条目 : 1-25 ... 2726-2750 2751-2775 2776-2800 2801-2825 2826-2850 2851-2875 2876-2900 ... 3126-3129

显示最多 25 每页条目：较少 | 更多 | 所有

[2801] arXiv:2506.13425 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]: 标题： JENGA：堆叠机器人抓取中的物体选择与姿态估计

标题： JENGA: Object selection and pose estimation for robotic grasping from a stack

Sai Srinivas Jeevanandam, Sandeep Inuganti, Shreedhar Govil, Didier Stricker, Jason Rambach

主题：机器人技术 (cs.RO) ; 计算机视觉与模式识别 (cs.CV)
[2802] arXiv:2506.13443 (交叉列表自 eess.IV) [中文pdf, pdf, 其他]: 标题：投影域合成用于CT成像

标题： PRO: Projection Domain Synthesis for CT Imaging

Kang Chen, Bin Huang, Xuebin Yang, Junyan Zhang, Qiegen Liu

主题：图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[2803] arXiv:2506.13477 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]: 标题：多模态集成在情感表达儿童虚拟形象中的挑战用于培训应用

标题： Multimodal Integration Challenges in Emotionally Expressive Child Avatars for Training Applications

Pegah Salehi, Sajad Amouei Sheshkal, Vajira Thambawita, Michael A. Riegler, Pål Halvorsen

评论： 20页，9图，9表

主题：人机交互 (cs.HC) ; 计算机视觉与模式识别 (cs.CV)
[2804] arXiv:2506.13579 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]: 标题：离散扩散模型的可变长度文本填补

标题： Flexible-length Text Infilling for Discrete Diffusion Models

Andrew Zhang, Anushka Sivakumar, Chiawei Tang, Chris Thomas

主题：机器学习 (cs.LG) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV)
[2805] arXiv:2506.13614 (交叉列表自 stat.ML) [中文pdf, pdf, html, 其他]: 标题：利用精确的去噪后验分数在无训练扩散模型引导中的应用

标题： Exploiting the Exact Denoising Posterior Score in Training-Free Guidance of Diffusion Models

Gregory Bellchambers

主题：机器学习 (stat.ML) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
[2806] arXiv:2506.13642 (交叉列表自 cs.AI) [中文pdf, pdf, html, 其他]: 标题：流-全能：与大型语言-视觉-语音模型的同步多模态交互

标题： Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model

Shaolei Zhang, Shoutao Guo, Qingkai Fang, Yan Zhou, Yang Feng

评论：代码：https://github.com/ictnlp/Stream-Omni ，模型： https://huggingface.co/ICTNLP/stream-omni-8b

主题：人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[2807] arXiv:2506.13667 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]: 标题： MultiViT2：基于潜在扩散模型的数据增强多模态神经影像预测框架

标题： MultiViT2: A Data-augmented Multimodal Neuroimaging Prediction Framework via Latent Diffusion Model

Bi Yuda, Jia Sihan, Gao Yutong, Abrol Anees, Fu Zening, Calhoun Vince

主题：图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[2808] arXiv:2506.13679 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]: 标题： ROSA：利用机器人状态实现视觉-语言与动作对齐

标题： ROSA: Harnessing Robot States for Vision-Language and Action Alignment

Yuqing Wen, Kefan Gu, Haoxuan Liu, Yucheng Zhao, Tiancai Wang, Haoqiang Fan, Xiaoyan Sun

主题：机器人技术 (cs.RO) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[2809] arXiv:2506.13754 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]: 标题： VideoPDE：基于视频修复扩散模型的统一偏微分方程求解器

标题： VideoPDE: Unified Generative PDE Solving via Video Inpainting Diffusion Models

Edward Li, Zichen Wang, Jiahe Huang, Jeong Joon Park

评论：项目页面：https://videopde.github.io/

主题：机器学习 (cs.LG) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[2810] arXiv:2506.13756 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]: 标题： UltraZoom：从普通照片生成十亿像素图像

标题： UltraZoom: Generating Gigapixel Images from Regular Photos

Jingwei Ma, Vivek Jayaram, Brian Curless, Ira Kemelmacher-Shlizerman, Steven M. Seitz

评论：项目页面：https://ultra-zoom.github.io/

主题：图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV)
[2811] arXiv:2506.13762 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]: 标题：触觉始于视觉结束之处：适用于丰富接触的操纵通用策略

标题： Touch begins where vision ends: Generalizable policies for contact-rich manipulation

Zifan Zhao, Siddhant Haldar, Jinda Cui, Lerrel Pinto, Raunaq Bhirangi

主题：机器人技术 (cs.RO) ; 计算机视觉与模式识别 (cs.CV)
[2812] arXiv:2506.13763 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]: 标题：通过估计最优损失值诊断和改进扩散模型

标题： Diagnosing and Improving Diffusion Models by Estimating the Optimal Loss Value

Yixian Xu, Shengjie Luo, Liwei Wang, Di He, Chang Liu

评论： 29页，8幅图，3张表格。预印本。进行中工作

主题：机器学习 (cs.LG) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (stat.ML)
[2813] arXiv:2506.13807 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]: 标题： BraTS 主协调器：使最先进的脑肿瘤图像分析民主化和普及化

标题： BraTS orchestrator : Democratizing and Disseminating state-of-the-art brain tumor image analysis

Florian Kofler, Marcel Rosier, Mehdi Astaraki, Ujjwal Baid, Hendrik Möller, Josef A. Buchner, Felix Steinbauer, Eva Oswald, Ezequiel de la Rosa, Ivan Ezhov, Constantin von See, Jan Kirschke, Anton Schmick, Sarthak Pati, Akis Linardos, Carla Pitarch, Sanyukta Adap, Jeffrey Rudie, Maria Correia de Verdier, Rachit Saluja, Evan Calabrese, Dominic LaBella, Mariam Aboian, Ahmed W. Moawad, Nazanin Maleki, Udunna Anazodo, Maruf Adewole, Marius George Linguraru, Anahita Fathi Kazerooni, Zhifan Jiang, Gian Marco Conte, Hongwei Li, Juan Eugenio Iglesias, Spyridon Bakas, Benedikt Wiestler, Marie Piraud, Bjoern Menze

评论： 27页，2幅图，3个表格

主题：图像与视频处理 (eess.IV) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[2814] arXiv:2506.13819 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]: 标题：基于CNN的光谱无创葡萄糖传感技术

标题： Reliable Noninvasive Glucose Sensing via CNN-Based Spectroscopy

El Arbi Belfarsi, Henry Flores, Maria Valero

评论：提交至IEEE-EMBS生物医学与健康信息学国际会议（BHI 2025）

主题：图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
[2815] arXiv:2506.13888 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题： VL-GenRM：通过视觉专家和迭代训练增强视觉语言验证

标题： VL-GenRM: Enhancing Vision-Language Verification via Vision Experts and Iterative Training

Jipeng Zhang, Kehao Miao, Renjie Pi, Zhaowei Wang, Runtao Liu, Rui Pan, Tong Zhang

主题：计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV)
[2816] arXiv:2506.14107 (交叉列表自 cs.DC) [中文pdf, pdf, html, 其他]: 标题： Deja Vu：基于学习的帧间计算重用高效视频-语言查询引擎

标题： Déjà Vu: Efficient Video-Language Query Engine with Learning-based Inter-Frame Computation Reuse

Jinwoo Hwang, Daeun Kim, Sangyeop Lee, Yoonsung Kim, Guseul Heo, Hojoon Kim, Yunseok Jeong, Tadiwos Meaza, Eunhyeok Park, Jeongseob Ahn, Jongse Park

评论：录用为2025年VLDB

主题：分布式、并行与集群计算 (cs.DC) ; 计算机视觉与模式识别 (cs.CV)
[2817] arXiv:2506.14135 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]: 标题： GAF：高斯动作场作为机器人操作的动态世界模型

标题： GAF: Gaussian Action Field as a Dynamic World Model for Robotic Manipulation

Ying Chai, Litao Deng, Ruizhi Shao, Jiajun Zhang, Liangjun Xing, Hongwen Zhang, Yebin Liu

评论： http://chaiying1.github.io/GAF.github.io/project_page/

主题：机器人技术 (cs.RO) ; 计算机视觉与模式识别 (cs.CV)
[2818] arXiv:2506.14198 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]: 标题：放大：来自视频的机器人学习的动作less先验

标题： AMPLIFY: Actionless Motion Priors for Robot Learning from Videos

Jeremy A. Collins, Loránd Cheng, Kunal Aneja, Albert Wilcox, Benjamin Joffe, Animesh Garg

主题：机器人技术 (cs.RO) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
[2819] arXiv:2506.14209 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]: 标题：潜在异常检测：用于医学CBCT无监督分割的掩码VQ-GAN

标题： Latent Anomaly Detection: Masked VQ-GAN for Unsupervised Segmentation in Medical CBCT

Pengwei Wang

主题：图像与视频处理 (eess.IV) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[2820] arXiv:2506.14303 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]: 标题： orGAN：一种用于同时生成外科图像和地面真实标签的合成数据增强管道

标题： orGAN: A Synthetic Data Augmentation Pipeline for Simultaneous Generation of Surgical Images and Ground Truth Labels

Niran Nataraj, Maina Sogabe, Kenji Kawashima

评论： 24页，7个图

主题：图像与视频处理 (eess.IV) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[2821] arXiv:2506.14315 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]: 标题： ImmerseGen：基于Alpha贴图代理的Agent引导沉浸式世界生成

标题： ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies

Jinyan Yuan, Bangbang Yang, Keke Wang, Panwang Pan, Lin Ma, Xuehai Zhang, Xiao Liu, Zhaopeng Cui, Yuewen Ma

评论：项目网页：https://immersegen.github.io

主题：图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV)
[2822] arXiv:2506.14318 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]: 标题： BRISC：带有Swin-HAFNet的脑肿瘤分割与分类注释数据集

标题： BRISC: Annotated Dataset for Brain Tumor Segmentation and Classification with Swin-HAFNet

Amirreza Fateh, Yasin Rezvani, Sara Moayedi, Sadjad Rezvani, Fatemeh Fateh, Mansoor Fateh

主题：图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[2823] arXiv:2506.14381 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]: 标题：基于分层编码的压缩视频超分辨率

标题： Compressed Video Super-Resolution based on Hierarchical Encoding

Yuxuan Jiang, Siyue Teng, Qiang Zhu, Chen Feng, Chengxi Zeng, Fan Zhang, Shuyuan Zhu, Bing Zeng, David Bull

主题：图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[2824] arXiv:2506.14390 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]: 标题：用于可解释的分布外检测的原型变分自编码器的封闭研究

标题： Enclosing Prototypical Variational Autoencoder for Explainable Out-of-Distribution Detection

Conrad Orglmeister, Erik Bochinski, Volker Eiselein, Elvira Fleig

评论：本预印本尚未经过同行评审或任何提交后的改进和修正。本文的正式版本发表在《计算机安全、可靠性与安全——SAFECOMP 2024研讨会——DECSoS、SASSUR、TOASTS和WAISE》上，并可在https://doi.org/10.1007/978-3-031-68738-9_29在线获取。

主题：机器学习 (cs.LG) ; 计算机视觉与模式识别 (cs.CV)
[2825] arXiv:2506.14432 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]: 标题：用于自监督学习的大规模异构三维磁共振脑成像数据集

标题： A large-scale heterogeneous 3D magnetic resonance brain imaging dataset for self-supervised learning

Asbjørn Munk, Stefano Cerri, Jakob Ambsdorf, Julia Machnio, Sebastian Nørgaard Llambias, Vardan Nersesjan, Christian Hedeager Krag, Peirong Liu, Pablo Rocamora García, Mostafa Mehdipour Ghazi, Mikael Boesen, Michael Eriksen Benros, Juan Eugenio Iglesias, Mads Nielsen

主题：图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)

总共 3129 条目 : 1-25 ... 2726-2750 2751-2775 2776-2800 2801-2825 2826-2850 2851-2875 2876-2900 ... 3126-3129

显示最多 25 每页条目：较少 | 更多 | 所有

计算机视觉与模式识别

2025年06月 的作者和标题

2025年06月的作者和标题