Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs.CV

帮助 | 高级搜索

计算机视觉与模式识别

2025年06月 的作者和标题

总共 3129 条目 : 1-2000 2001-3129 2951-3129
显示最多 2000 每页条目: 较少 | 更多 | 所有
[2951] arXiv:2506.18371 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 将H&E图像转换为IHC:一种方差惩罚的GAN用于精准肿瘤学
标题: Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology
Sara Rehmat, Hafeez Ur Rehman
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[2952] arXiv:2506.18378 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 医学图像分析中视觉-语言模型的驯化:全面综述
标题: Taming Vision-Language Models for Medical Image Analysis: A Comprehensive Review
Haoneng Lin, Cheng Xu, Jing Qin
评论: 34页
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[2953] arXiv:2506.18407 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: 你所想即你所得:通过多模态大语言模型连接用户意图与传输函数设计
标题: What You Think Is What You Get: Bridge User Intent and Transfer Function Design through Multimodal Large Language Models
Yiyao Wang, Bo Pan, Ke Wang, Han Liu, Jinyuan Mao, Yuxin Liu, Minfeng Zhu, Bo Zhang, Weifeng Chen, Xiuqi Huang, Wei Chen
主题: 图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV)
[2954] arXiv:2506.18443 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: 雷达与事件相机融合用于敏捷机器人自运动估计
标题: Radar and Event Camera Fusion for Agile Robot Ego-Motion Estimation
Yang Lyu, Zhenghao Zou, Yanfeng Li, Chunhui Zhao, Quan Pan
主题: 机器人技术 (cs.RO) ; 计算机视觉与模式识别 (cs.CV)
[2955] arXiv:2506.18474 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 基于深度卷积神经网络的不平衡数据分割新类平衡方法
标题: A Deep Convolutional Neural Network-Based Novel Class Balancing for Imbalance Data Segmentation
Atifa Kalsoom, M.A. Iftikhar, Amjad Ali, Zubair Shah, Shidin Balakrishnan, Hazrat Ali
评论: 这是提交给《科学报告》期刊的论文的预印本
主题: 图像与视频处理 (eess.IV) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
[2956] arXiv:2506.18484 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: GANs 与扩散模型在 HER2match 数据集虚拟染色中的比较
标题: GANs vs. Diffusion Models for virtual staining with the HER2match dataset
Pascal Klöckner, José Teixeira, Diana Montezuma, Jaime S. Cardoso, Hugo M. Horlings, Sara P. Oliveira
主题: 计算机视觉与模式识别 (cs.CV)
[2957] arXiv:2506.18512 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: MedTVT-R1:一种增强医学推理和诊断的多模态大语言模型
标题: MedTVT-R1: A Multimodal LLM Empowering Medical Reasoning and Diagnosis
Yuting Zhang, Kaishen Yuan, Hao Lu, Yutao Yue, Jintai Chen, Kaishun Wu
主题: 计算机视觉与模式识别 (cs.CV)
[2958] arXiv:2506.18598 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: 无需训练轮子:推理时的偏差校正方向向量
标题: No Training Wheels: Steering Vectors for Bias Correction at Inference Time
Aviral Gupta, Armaan Sethi, Ameesh Sethi
主题: 机器学习 (cs.LG) ; 计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV)
[2959] arXiv:2506.18601 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: BulletGen:通过子弹时间生成改进4D重建
标题: BulletGen: Improving 4D Reconstruction with Bullet-Time Generation
Denys Rozumnyi, Jonathon Luiten, Numair Khan, Johannes Schönberger, Peter Kontschieder
主题: 图形学 (cs.GR) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
[2960] arXiv:2506.18671 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: TCDiff++:一种端到端轨迹可控的扩散模型,用于和谐的音乐驱动群体舞蹈
标题: TCDiff++: An End-to-end Trajectory-Controllable Diffusion Model for Harmonious Music-Driven Group Choreography
Yuqin Dai, Wanlu Zhu, Ronghui Li, Xiu Li, Zhenyu Zhang, Jun Li, Jian Yang
主题: 声音 (cs.SD) ; 计算机视觉与模式识别 (cs.CV) ; 图形学 (cs.GR) ; 音频与语音处理 (eess.AS)
[2961] arXiv:2506.18680 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: DuetGen:通过分层掩码建模的音乐驱动双人舞蹈生成
标题: DuetGen: Music Driven Two-Person Dance Generation via Hierarchical Masked Modeling
Anindita Ghosh, Bing Zhou, Rishabh Dabral, Jian Wang, Vladislav Golyanik, Christian Theobalt, Philipp Slusallek, Chuan Guo
评论: 11页,7图,2表,被ACM Siggraph 2025会议赛道接收
主题: 图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[2962] arXiv:2506.18720 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 时间神经细胞自动机:用于乳腺MRI对比增强建模
标题: Temporal Neural Cellular Automata: Application to modeling of contrast enhancement in breast MRI
Daniel M. Lang, Richard Osuala, Veronika Spieker, Karim Lekadir, Rickmer Braren, Julia A. Schnabel
评论: MICCAI 2025
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[2963] arXiv:2506.18725 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: TDACloud:使用拓扑数据分析的点云识别
标题: TDACloud: Point Cloud Recognition Using Topological Data Analysis
Anirban Ghosh, Ian Dahlin, Ayan Dutta
主题: 机器人技术 (cs.RO) ; 计算几何 (cs.CG) ; 计算机视觉与模式识别 (cs.CV)
[2964] arXiv:2506.18810 (交叉列表自 cs.AI) [中文pdf, pdf, html, 其他]
标题: 简洁提示:生成过程中通过连续简洁提示提升高效推理
标题: ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation
Siao Tang, Xinyin Ma, Gongfan Fang, Xinchao Wang
评论: 代码可在 https://github.com/tsa18/ConciseHint 获取
主题: 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV)
[2965] arXiv:2506.18842 (交叉列表自 cs.DB) [中文pdf, pdf, html, 其他]
标题: 灯塔:从地球任何地方快速精确计算到海岸线的距离
标题: LIGHTHOUSE: Fast and precise distance to shoreline calculations from anywhere on earth
Patrick Beukema, Henry Herzog, Yawen Zhang, Hunter Pitelka, Favyen Bastani
评论: 8页,7图,1表,ICML 2025 ML4RS
主题: 数据库 (cs.DB) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
[2966] arXiv:2506.18844 (交叉列表自 cs.RO) [中文pdf, pdf, 其他]
标题: 在野外对相机自动曝光方法的可重复评估:平台、基准和经验教训
标题: Reproducible Evaluation of Camera Auto-Exposure Methods in the Field: Platform, Benchmark and Lessons Learned
Olivier Gamache, Jean-Michel Fortin, Matěj Boxan, François Pomerleau, Philippe Giguère
评论: 19页,11张图表,被接受论文的预印本,发表于IEEE Transactions on Field Robotics(T-FR)
主题: 机器人技术 (cs.RO) ; 计算机视觉与模式识别 (cs.CV)
[2967] arXiv:2506.18885 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: GRAND-SLAM:用于全局一致的大规模多智能体高斯SLAM的局部优化
标题: GRAND-SLAM: Local Optimization for Globally Consistent Large-Scale Multi-Agent Gaussian SLAM
Annika Thomas, Aneesa Sonawalla, Alex Rose, Jonathan P. How
主题: 机器人技术 (cs.RO) ; 计算机视觉与模式识别 (cs.CV)
[2968] arXiv:2506.18919 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: MemeMind:一种用于有害模因检测的大规模多模态数据集,包含思维链推理
标题: MemeMind: A Large-Scale Multimodal Dataset with Chain-of-Thought Reasoning for Harmful Meme Detection
Hexiang Gu, Qifan Yu, Saihui Hou, Zhiqin Fang, Huijia Wu, Zhaofeng He
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[2969] arXiv:2506.19051 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: NIC-RobustBench:一个用于神经图像压缩和鲁棒性分析的全面开源工具包
标题: NIC-RobustBench: A Comprehensive Open-Source Toolkit for Neural Image Compression and Robustness Analysis
Georgii Bychkov, Khaled Abud, Egor Kovalev, Alexander Gushchin, Dmitriy Vatolin, Anastasia Antsiferova
评论: arXiv 管理员注:与 arXiv:2411.11795 存在文本重叠
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[2970] arXiv:2506.19055 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: Xray2Xray:基于体积上下文的胸部X光世界模型
标题: Xray2Xray: World Model from Chest X-rays with Volumetric Context
Zefan Yang, Xinrui Song, Xuanang Xu, Yongyi Shi, Ge Wang, Mannudeep K. Kalra, Pingkun Yan
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[2971] arXiv:2506.19106 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 组织病理学中的染色归一化:使用多中心数据集进行方法基准测试
标题: Staining normalization in histopathology: Method benchmarking using multicenter dataset
Umair Khan, Jouni Härkönen, Marjukka Friman, Leena Latonen, Teijo Kuopio, Pekka Ruusuvuori
评论: 18页,9图
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV) ; 组织与器官 (q-bio.TO)
[2972] arXiv:2506.19139 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: SOF:用于快速无界表面重建的排序不透明度场
标题: SOF: Sorted Opacity Fields for Fast Unbounded Surface Reconstruction
Lukas Radl, Felix Windisch, Thomas Deixelberger, Jozef Hladky, Michael Steiner, Dieter Schmalstieg, Markus Steinberger
主题: 图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV)
[2973] arXiv:2506.19167 (交叉列表自 eess.IV) [中文pdf, pdf, 其他]
标题: 基于深度学习的心脏磁共振图像快速配准方法
标题: A Deep Learning Based Method for Fast Registration of Cardiac Magnetic Resonance Images
Benjamin Graham
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
[2974] arXiv:2506.19222 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 基于有效解剖结构表示和分而治之网络的可变形医学图像配准
标题: Deformable Medical Image Registration with Effective Anatomical Structure Representation and Divide-and-Conquer Network
Xinke Ma, Yongsheng Pan, Qingjie Zeng, Mengkang Lu, Bolysbek Murat Yerzhanuly, Bazargul Matkerim, Yong Xia
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[2975] arXiv:2506.19234 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 数字病理学中异常检测方法的定量基准测试
标题: Quantitative Benchmarking of Anomaly Detection Methods in Digital Pathology
Can Cui, Xindong Zheng, Ruining Deng, Quan Liu, Tianyuan Yao, Keith T Wilson, Lori A Coburn, Bennett A Landman, Haichun Yang, Yaohong Wang, Yuankai Huo
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[2976] arXiv:2506.19266 (交叉列表自 q-bio.NC) [中文pdf, pdf, 其他]
标题: 弓状束在猕猴和人类中的收敛和发散连接模式
标题: Convergent and divergent connectivity patterns of the arcuate fasciculus in macaques and humans
Jiahao Huang, Ruifeng Li, Wenwen Yu, Anan Li, Xiangning Li, Mingchao Yan, Lei Xie, Qingrun Zeng, Xueyan Jia, Shuxin Wang, Ronghui Ju, Feng Chen, Qingming Luo, Hui Gong, Andrew Zalesky, Xiaoquan Yang, Yuanjing Feng, Zheng Wang
评论: 34页,6图
主题: 神经与认知 (q-bio.NC) ; 计算机视觉与模式识别 (cs.CV) ; 图像与视频处理 (eess.IV)
[2977] arXiv:2506.19297 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 基于残差的显式可扩展图像编码用于人类和机器
标题: Explicit Residual-Based Scalable Image Coding for Humans and Machines
Yui Tatsumi, Ziyue Zeng, Hiroshi Watanabe
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[2978] arXiv:2506.19360 (交叉列表自 cs.CR) [中文pdf, pdf, html, 其他]
标题: SoK:合成图像能否替代真实数据? 合成图像生成的效用与隐私综述
标题: SoK: Can Synthetic Images Replace Real Data? A Survey of Utility and Privacy of Synthetic Image Generation
Yunsung Chung, Yunbei Zhang, Nassir Marrouche, Jihun Hamm
评论: 被第34届USENIX安全研讨会(USENIX Security '25)接收。 21页,加上6页附录
主题: 密码学与安全 (cs.CR) ; 计算机视觉与模式识别 (cs.CV)
[2979] arXiv:2506.19363 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 重新考虑显式纵向乳腺摄影对齐以增强乳腺癌风险预测
标题: Reconsidering Explicit Longitudinal Mammography Alignment for Enhanced Breast Cancer Risk Prediction
Solveig Thrun, Stine Hansen, Zijun Sun, Nele Blum, Suaiba A. Salahuddin, Kristoffer Wickstrøm, Elisabeth Wetzer, Robert Jenssen, Maik Stille, Michael Kampffmeyer
评论: MICCAI 2025,提前接收
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[2980] arXiv:2506.19387 (交叉列表自 eess.IV) [中文pdf, pdf, 其他]
标题: NAADA:一种用于牙科全景X光片的噪声感知注意力去噪自编码器
标题: NAADA: A Noise-Aware Attention Denoising Autoencoder for Dental Panoramic Radiographs
Khuram Naveed, Bruna Neves de Freitas, Ruben Pauwels
评论: 10页,8图
主题: 图像与视频处理 (eess.IV) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
[2981] arXiv:2506.19415 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: 三维高斯泼溅的虚拟内存
标题: Virtual Memory for 3D Gaussian Splatting
Jonathan Haberl, Philipp Fleck, Clemens Arth
评论: 基于乔纳森·哈伯尔2024年的硕士论文,提交至TVCG,2025年2月;
主题: 图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV) ; 人机交互 (cs.HC)
[2982] arXiv:2506.19455 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: Angio-Diff:用于血管造影几何生成的自监督对抗扩散模型
标题: Angio-Diff: Learning a Self-Supervised Adversarial Diffusion Model for Angiographic Geometry Generation
Zhifeng Wang, Renjiao Yi, Xin Wen, Chenyang Zhu, Kai Xu, Kunlun He
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[2983] arXiv:2506.19464 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 评估针对医学影像任务窃取专有模型的风险
标题: Assessing Risk of Stealing Proprietary Models for Medical Imaging Tasks
Ankita Raj, Harsh Swaika, Deepankar Varma, Chetan Arora
评论: 被MICCAI 2024接收
主题: 计算机视觉与模式识别 (cs.CV) ; 密码学与安全 (cs.CR)
[2984] arXiv:2506.19491 (交叉列表自 cs.ET) [中文pdf, pdf, html, 其他]
标题: 基于小型无人机的神经三维重建实验评估
标题: Experimental Assessment of Neural 3D Reconstruction for Small UAV-based Applications
Genís Castillo Gómez-Raya, Álmos Veres-Vitályos, Filip Lemic, Pablo Royo, Mario Montagud, Sergi Fernández, Sergi Abadal, Xavier Costa-Pérez
评论: 6页,7图,2表,已被2025年IEEE个人、室内和移动无线电通信国际研讨会接收
主题: 新兴技术 (cs.ET) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 网络与互联网架构 (cs.NI) ; 图像与视频处理 (eess.IV)
[2985] arXiv:2506.19558 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: ConCM:一致性驱动的校准与匹配用于少样本类增量学习
标题: ConCM: Consistency-Driven Calibration and Matching for Few-Shot Class-Incremental Learning
QinZhe Wang, Zixuan Chen, Keke Huang, Xiu Su, Chunhua Yang, Chang Xu
评论: 9页,5图(不包括附录)
主题: 机器学习 (cs.LG) ; 计算机视觉与模式识别 (cs.CV)
[2986] arXiv:2506.19579 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: 假的还是真的,机器人能分辨吗? 在真实物体和3D打印物体上评估具身视觉-语言模型
标题: Fake or Real, Can Robots Tell? Evaluating Embodied Vision-Language Models on Real and 3D-Printed Objects
Federico Tavella, Kathryn Mearns, Angelo Cangelosi
主题: 机器人技术 (cs.RO) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
[2987] arXiv:2506.19590 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 从解剖学中学习:用于全身MRI转移性骨病分割的监督解剖预训练(SAP)
标题: Learning from Anatomy: Supervised Anatomical Pretraining (SAP) for Improved Metastatic Bone Disease Segmentation in Whole-Body MRI
Joris Wuts, Jakub Ceranka, Nicolas Michoux, Frédéric Lecouvet, Jef Vandemeulebroucke
评论: 此预印本目前正在 *Computers in Biology and Medicine*(Elsevier)接受审稿。此版本尚未经过同行评审。
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[2988] arXiv:2506.19600 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 从稀疏 PET 探测器配置中不完整 sinogram 的填充使用残差 U-Net
标题: Filling of incomplete sinograms from sparse PET detector configurations using a residual U-Net
Klara Leffler, Luigi Tommaso Luppino, Samuel Kuttner, Karin Söderkvist, Jan Axelsson
评论: 15页,9图
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV) ; 医学物理 (physics.med-ph)
[2989] arXiv:2506.19687 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: ReCoGNet:用于3D MRI前列腺分割的循环上下文引导网络
标题: ReCoGNet: Recurrent Context-Guided Network for 3D MRI Prostate Segmentation
Ahmad Mustafa, Reza Rastegar, Ghassan AlRegib
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[2990] arXiv:2506.19708 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: 使用稀疏自编码器揭示生成图像模型中的概念盲点
标题: Uncovering Conceptual Blindspots in Generative Image Models Using Sparse Autoencoders
Matyas Bohacek, Thomas Fel, Maneesh Agrawala, Ekdeep Singh Lubana
主题: 图形学 (cs.GR) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[2991] arXiv:2506.19741 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: 噪声一致性训练:一种用于学习额外控制的一步生成器的原生方法
标题: Noise Consistency Training: A Native Approach for One-Step Generator in Learning Additional Controls
Yihong Luo, Shuchen Xue, Tianyang Hu, Jing Tang
主题: 机器学习 (cs.LG) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (stat.ML)
[2992] arXiv:2506.19742 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 基于NeRF的CBCT重建需要归一化和初始化
标题: NeRF-based CBCT Reconstruction needs Normalization and Initialization
Zhuowei Xu, Han Li, Dai Sun, Zhicheng Li, Yujia Li, Qingpeng Kong, Zhiwei Cheng, Nassir Navab, S. Kevin Zhou
主题: 图像与视频处理 (eess.IV) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[2993] arXiv:2506.19797 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 垂体腺和垂体腺瘤在磁共振成像中自动分割技术的系统综述
标题: Systematic Review of Pituitary Gland and Pituitary Adenoma Automatic Segmentation Techniques in Magnetic Resonance Imaging
Mubaraq Yakubu, Navodini Wijethilake, Jonathan Shapey, Andrew King, Alexander Hammers
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[2994] arXiv:2506.19807 (交叉列表自 cs.AI) [中文pdf, pdf, 其他]
标题: KnowRL:探索事实性的知识强化学习
标题: KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality
Baochang Ren, Shuofei Qiao, Wenhao Yu, Huajun Chen, Ningyu Zhang
评论: 进行中
主题: 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG) ; 多智能体系统 (cs.MA)
[2995] arXiv:2506.19816 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: CronusVLA:在操作中跨时间传递潜在运动以进行多帧预测
标题: CronusVLA: Transferring Latent Motion Across Time for Multi-Frame Prediction in Manipulation
Hao Li, Shuai Yang, Yilun Chen, Yang Tian, Xiaoda Yang, Xinyi Chen, Hanqing Wang, Tai Wang, Feng Zhao, Dahua Lin, Jiangmiao Pang
评论: 36页,21图
主题: 机器人技术 (cs.RO) ; 计算机视觉与模式识别 (cs.CV)
[2996] arXiv:2506.19827 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: 查看以定位:用于GNSS挑战环境的基于视觉的多感官导航与三维数字地图
标题: Look to Locate: Vision-Based Multisensory Navigation with 3-D Digital Maps for GNSS-Challenged Environments
Ola Elmaghraby, Eslam Mounier, Paulo Ricardo Marques de Araujo, Aboelmagd Noureldin
主题: 机器人技术 (cs.RO) ; 计算机视觉与模式识别 (cs.CV)
[2997] arXiv:2506.19847 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: 正交微调的可扩展性
标题: Orthogonal Finetuning Made Scalable
Zeju Qiu, Weiyang Liu, Adrian Weller, Bernhard Schölkopf
评论: 技术报告(17页,7图,项目页面:https://spherelab.ai/oftv2/)
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV)
[2998] arXiv:2506.19860 (交叉列表自 eess.SP) [中文pdf, pdf, html, 其他]
标题: 基于遥感的电动汽车充电基础设施多模态空间风险框架
标题: A Multi-Modal Spatial Risk Framework for EV Charging Infrastructure Using Remote Sensing
Oktay Karakuş, Padraig Corcoran
评论: 11页,4图,2表
主题: 信号处理 (eess.SP) ; 计算机视觉与模式识别 (cs.CV)
[2999] arXiv:2506.19935 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: 任意顺序GPT作为掩码扩散模型:解耦公式和架构
标题: Any-Order GPT as Masked Diffusion Model: Decoupling Formulation and Architecture
Shuchen Xue, Tianyu Xie, Tianyang Hu, Zijin Feng, Jiacheng Sun, Kenji Kawaguchi, Zhenguo Li, Zhi-Ming Ma
主题: 机器学习 (cs.LG) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (stat.ML)
[3000] arXiv:2506.19975 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 体素优化:可变形腹部CT配准中的体素自适应消息传递
标题: VoxelOpt: Voxel-Adaptive Message Passing for Discrete Optimization in Deformable Abdominal CT Registration
Hang Zhang, Yuxi Zhang, Jiazheng Wang, Xiang Chen, Renjiu Hu, Xin Tian, Gaolei Li, Min Liu
评论: 已接受发表于MICCAI 2025
主题: 图像与视频处理 (eess.IV) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 信号处理 (eess.SP)
[3001] arXiv:2506.20045 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: 基于RGB感知的机器人抓取的一致性驱动不确定性
标题: Consensus-Driven Uncertainty for Robotic Grasping based on RGB Perception
Eric C. Joyce, Qianwen Zhao, Nathaniel Burgdorfer, Long Wang, Philippos Mordohai
评论: 被IROS 2025接收
主题: 机器人技术 (cs.RO) ; 计算机视觉与模式识别 (cs.CV)
[3002] arXiv:2506.20100 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: MIRAGE:农业专家引导对话中的多模态信息检索与推理基准
标题: MIRAGE: A Benchmark for Multimodal Information-Seeking and Reasoning in Agricultural Expert-Guided Conversations
Vardhan Dongre, Chi Gui, Shubham Garg, Hooshang Nayyeri, Gokhan Tur, Dilek Hakkani-Tür, Vikram S. Adve
评论: 66页,32图,23表
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV)
[3003] arXiv:2506.20200 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: MS-IQA:一种用于PET/CT图像质量评估的多尺度特征融合网络
标题: MS-IQA: A Multi-Scale Feature Fusion Network for PET/CT Image Quality Assessment
Siqiao Li, Chen Hui, Wei Zhang, Rui Liang, Chenyue Song, Feng Jiang, Haiqi Zhu, Zhixuan Li, Hong Huang, Xiang Li
评论: 被MICCAI 2025接收
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3004] arXiv:2506.20245 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: FedBKD:在非独立同分布数据上实现泛化与个性化的知识蒸馏联邦学习
标题: FedBKD: Distilled Federated Learning to Embrace Gerneralization and Personalization on Non-IID Data
Yushan Zhao, Jinyuan He, Donglai Chen, Weijie Luo, Chong Xie, Ri Zhang, Yonghong Chen, Yan Xu
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[3005] arXiv:2506.20267 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: X-SiT:用于痴呆诊断的固有可解释表面视觉变压器
标题: X-SiT: Inherently Interpretable Surface Vision Transformers for Dementia Diagnosis
Fabian Bongratz, Tom Nuno Wolf, Jaume Gual Ramon, Christian Wachinger
评论: MICCAI 2025
主题: 图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
[3006] arXiv:2506.20282 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 通过纹理保持的自监督、专家混合和多任务集成的机遇性骨质疏松诊断
标题: Opportunistic Osteoporosis Diagnosis via Texture-Preserving Self-Supervision, Mixture of Experts and Multi-Task Integration
Jiaxing Huang, Heng Guo, Le Lu, Fan Yang, Minfeng Xu, Ge Yang, Wei Luo
评论: 被MICCAI 2025接受
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3007] arXiv:2506.20303 (交叉列表自 eess.IV) [中文pdf, pdf, 其他]
标题: FundaQ-8:一种临床启发的自动视网膜图像质量评分框架
标题: FundaQ-8: A Clinically-Inspired Scoring Framework for Automated Fundus Image Quality Assessment
Lee Qi Zun, Oscar Wong Jin Hao, Nor Anita Binti Che Omar, Zalifa Zakiah Binti Asnir, Mohamad Sabri bin Sinal Zainal, Goh Man Fye
主题: 图像与视频处理 (eess.IV) ; 计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV)
[3008] arXiv:2506.20305 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: 学习适度输入敏感函数:二维码解码案例研究
标题: Learning Moderately Input-Sensitive Functions: A Case Study in QR Code Decoding
Kazuki Yoda, Kazuhiko Kawamoto, Hiroshi Kera
评论: 17页,13图
主题: 机器学习 (cs.LG) ; 计算机视觉与模式识别 (cs.CV)
[3009] arXiv:2506.20333 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: EAGLE:一种用于肝包虫病的高效全局注意力病灶分割模型
标题: EAGLE: An Efficient Global Attention Lesion Segmentation Model for Hepatic Echinococcosis
Jiayan Chen, Kai Li, Yulu Zhao, Jianqiang Huang, Zhan Wang
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3010] arXiv:2506.20355 (交叉列表自 quant-ph) [中文pdf, pdf, html, 其他]
标题: 量子和混合卷积神经网络中不同编码、尝试态和测量方法的影响的实用见解
标题: Practical insights on the effect of different encodings, ansätze and measurements in quantum and hybrid convolutional neural networks
Jesús Lozano-Cruz, Albert Nieto-Morales, Oriol Balló-Gimbernat, Adan Garriga, Antón Rodríguez-Otero, Alejandro Borrallo-Rentero
评论: 20页,22图
主题: 量子物理 (quant-ph) ; 计算机视觉与模式识别 (cs.CV)
[3011] arXiv:2506.20367 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: DreamAnywhere:以物体为中心的全景3D场景生成
标题: DreamAnywhere: Object-Centric Panoramic 3D Scene Generation
Edoardo Alberto Dominici, Jozef Hladky, Floor Verhoeven, Lukas Radl, Thomas Deixelberger, Stefan Ainetter, Philipp Drescher, Stefan Hauswiesner, Arno Coomans, Giacomo Nazzaro, Konstantinos Vardis, Markus Steinberger
主题: 图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV)
[3012] arXiv:2506.20407 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 将放射组学特征与深度表示相结合用于胎儿超声图像的孕龄估计
标题: Fusing Radiomic Features with Deep Representations for Gestational Age Estimation in Fetal Ultrasound Images
Fangyijie Wang, Yuan Liang, Sourav Bhattacharjee, Abey Campbell, Kathleen M. Curran, Guénolé Silvestre
评论: 已被MICCAI 2025接受
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3013] arXiv:2506.20430 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 一种具有可追溯推理的代理系统用于罕见病诊断
标题: An Agentic System for Rare Disease Diagnosis with Traceable Reasoning
Weike Zhao, Chaoyi Wu, Yanjie Fan, Xiaoman Zhang, Pengcheng Qiu, Yuze Sun, Xiao Zhou, Yanfeng Wang, Ya Zhang, Yongguo Yu, Kun Sun, Weidi Xie
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 多智能体系统 (cs.MA)
[3014] arXiv:2506.20566 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: HRIBench:面向人机交互中实时人类感知的视觉-语言模型基准测试
标题: HRIBench: Benchmarking Vision-Language Models for Real-Time Human Perception in Human-Robot Interaction
Zhonghao Shi, Enyu Zhao, Nathaniel Dennler, Jingzhen Wang, Xinyang Xu, Kaleen Shrestha, Mengxue Fu, Daniel Seita, Maja Matarić
评论: 被第19届国际实验机器人研讨会(ISER 2025)接收
主题: 机器人技术 (cs.RO) ; 计算机视觉与模式识别 (cs.CV)
[3015] arXiv:2506.20614 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 加权均值频率:用于4D流动MRI分割的手工傅里叶特征
标题: Weighted Mean Frequencies: a handcraft Fourier feature for 4D Flow MRI segmentation
Simon Perrin, Sébastien Levilly, Huajun Sun, Harold Mouchère, Jean-Michel Serfaty
主题: 图像与视频处理 (eess.IV) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[3016] arXiv:2506.20652 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: EditP23:通过将图像提示传播到多视角进行3D编辑
标题: EditP23: 3D Editing via Propagation of Image Prompts to Multi-View
Roi Bar-On, Dana Cohen-Bar, Daniel Cohen-Or
评论: 代码、补充视频、交互式3D可视化和附加结果可在 https://editp23.github.io/ 获取
主题: 图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV)
[3017] arXiv:2506.20683 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 全局与局部对比学习用于心脏MRI和ECG的联合表示
标题: Global and Local Contrastive Learning for Joint Representations from Cardiac MRI and ECG
Alexander Selivanov, Philip Müller, Özgün Turgut, Nil Stolt-Ansó, Daniel Rückert
评论: 被MICCAI 2025(Springer LNCS)接收
主题: 图像与视频处理 (eess.IV) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 信号处理 (eess.SP)
[3018] arXiv:2506.20689 (交叉列表自 eess.IV) [中文pdf, pdf, 其他]
标题: U-R-VEDA:将UNET、残差链接、边缘和双注意力以及视觉变压器结合,用于CMRs的准确语义分割
标题: U-R-VEDA: Integrating UNET, Residual Links, Edge and Dual Attention, and Vision Transformer for Accurate Semantic Segmentation of CMRs
Racheal Mukisa, Arvind K. Bansal
评论: 15页,3图
主题: 图像与视频处理 (eess.IV) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
[3019] arXiv:2506.20703 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: 生成块世界:在图片中移动物体
标题: Generative Blocks World: Moving Things Around in Pictures
Vaibhav Vavilala, Seemandhar Jain, Rahul Vasanth, D.A. Forsyth, Anand Bhattad
评论: 23页,16图,2表
主题: 图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV)
[3020] arXiv:2506.20812 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: 基于LiDAR的无人机巡检中输电线路实时姿态和弧垂估计的模型方法
标题: Model-Based Real-Time Pose and Sag Estimation of Overhead Power Lines Using LiDAR for Drone Inspection
Alexandre Girard, Steven A. Parkison, Philippe Hamelin
评论: 提交至IEEE案例2025
主题: 机器人技术 (cs.RO) ; 计算机视觉与模式识别 (cs.CV)
[3021] arXiv:2506.20816 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: 通过网络层上的非均匀影响实现对抗数据的通用高效检测
标题: Universal and Efficient Detection of Adversarial Data through Nonuniform Impact on Network Layers
Furkan Mumcu, Yasin Yilmaz
评论: 重要:与 arXiv:2410.17442 存在大量文本重叠
期刊参考: 机器学习研究汇刊,2025年6月
主题: 机器学习 (cs.LG) ; 密码学与安全 (cs.CR) ; 计算机视觉与模式识别 (cs.CV)
[3022] arXiv:2506.20875 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: 3DGH:具有可组合头发和面部的3D头部生成
标题: 3DGH: 3D Head Generation with Composable Hair and Face
Chengan He, Junxuan Li, Tobias Kirschstein, Artem Sevastopolsky, Shunsuke Saito, Qingyang Tan, Javier Romero, Chen Cao, Holly Rushmeier, Giljoo Nam
评论: 被SIGGRAPH 2025接收。项目页面: https://c-he.github.io/projects/3dgh/
主题: 图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV)
[3023] arXiv:2506.20897 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 磁共振谱分析方法的发展,对静态磁场不均匀性具有鲁棒性
标题: Development of MR spectral analysis method robust against static magnetic field inhomogeneity
Shuki Maruyama, Hidenori Takeshima
评论: 11页,6图
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3024] arXiv:2506.20946 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: 使用几何感知扩散和时间视频模型的统一零样本三维纹理合成
标题: Consistent Zero-shot 3D Texture Synthesis Using Geometry-aware Diffusion and Temporal Video Models
Donggoo Kang, Jangyeong Kim, Dasol Jeong, Junyoung Choi, Jeonga Wi, Hyunmin Lee, Joonho Gwon, Joonki Paik
主题: 图形学 (cs.GR) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[3025] arXiv:2506.20969 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: 热扩散:用于自主导航的视觉到热图像的图像到图像翻译
标题: ThermalDiffusion: Visual-to-Thermal Image-to-Image Translation for Autonomous Navigation
Shruti Bansal, Wenshan Wang, Yifei Liu, Parv Maheshwari
评论: 被ICRA 2025的热红外在机器人技术研讨会(TIRO)接收
主题: 机器人技术 (cs.RO) ; 计算机视觉与模式识别 (cs.CV)
[3026] arXiv:2506.20990 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: SharpZO:通过仅前向传递的混合锐度感知视觉语言模型提示微调
标题: SharpZO: Hybrid Sharpness-Aware Vision Language Model Prompt Tuning via Forward-Only Passes
Yifan Yang, Zhen Zhang, Rupak Vignesh Swaminathan, Jing Liu, Nathan Susanj, Zheng Zhang
主题: 机器学习 (cs.LG) ; 计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV)
[3027] arXiv:2506.21037 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: RL-Selector:通过冗余评估的强化学习引导数据选择
标题: RL-Selector: Reinforcement Learning-Guided Data Selection via Redundancy Assessment
Suorong Yang, Peijia Li, Furao Shen, Jian Zhao
评论: ICCV 2025
期刊参考: ICCV 2025
主题: 机器学习 (cs.LG) ; 计算机视觉与模式识别 (cs.CV)
[3028] arXiv:2506.21041 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: SEAL:基于视觉-语言模型的安全端到端协同自动驾驶自适应长尾建模
标题: SEAL: Vision-Language Model-Based Safe End-to-End Cooperative Autonomous Driving with Adaptive Long-Tail Modeling
Junwei You, Pei Li, Zhuoyu Jiang, Zilin Huang, Rui Gan, Haotian Shi, Bin Ran
主题: 机器人技术 (cs.RO) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[3029] arXiv:2506.21144 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: 通过双提示优化和跨融合的个性化联邦学习
标题: Personalized Federated Learning via Dual-Prompt Optimization and Cross Fusion
Yuguang Zhang, Kuangpu Guo, Zhihe Lu, Yunbo Wang, Jian Liang
主题: 机器学习 (cs.LG) ; 计算机视觉与模式识别 (cs.CV)
[3030] arXiv:2506.21171 (交叉列表自 eess.IV) [中文pdf, pdf, 其他]
标题: 在DCT中发现宝藏:通过利用潜在相关性提升JPEG质量
标题: Uncover Treasures in DCT: Advancing JPEG Quality Enhancement by Exploiting Latent Correlations
Jing Yang, Qunliang Xing, Mai Xu, Minglang Qiao
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3031] arXiv:2506.21245 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: GANet-Seg:基于混合生成模型的对抗学习在脑肿瘤分割中的应用
标题: GANet-Seg: Adversarial Learning for Brain Tumor Segmentation with Hybrid Generative Models
Qifei Cui, Xinyu Lu
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3032] arXiv:2506.21272 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: FairyGen:从单个儿童绘制的角色生成故事漫画视频
标题: FairyGen: Storied Cartoon Video from a Single Child-Drawn Character
Jiayi Zheng, Xiaodong Cun
评论: 项目页面:https://jayleejia.github.io/FairyGen/ ; 代码:https://github.com/GVCLab/FairyGen
主题: 图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[3033] arXiv:2506.21319 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]
标题: SimVecVis:用于增强可视化理解的多模态大语言模型数据集
标题: SimVecVis: A Dataset for Enhancing MLLMs in Visualization Understanding
Can Liu, Chunlin Da, Xiaoxiao Long, Yuxiao Yang, Yu Zhang, Yong Wang
主题: 人机交互 (cs.HC) ; 计算机视觉与模式识别 (cs.CV)
[3034] arXiv:2506.21331 (交叉列表自 cs.DL) [中文pdf, pdf, html, 其他]
标题: 基于联盟参考文献和出版物权重的论文自动审稿人分配
标题: Automatic Reviewers Assignment to a Research Paper Based on Allied References and Publications Weight
Tamim Al Mahmud, B M Mainul Hossain, Dilshad Ara
评论: IEEE会议论文集(5页)
期刊参考: 2018年第四届计算、通信和自动化国际会议(ICCCA),印度格拉特诺伊达,2018年,第1-5页
主题: 数字图书馆 (cs.DL) ; 计算机视觉与模式识别 (cs.CV)
[3035] arXiv:2506.21448 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: ThinkSound:多模态大语言模型中用于音频生成和编辑的思维链推理
标题: ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing
Huadai Liu, Jialei Wang, Kaicheng Luo, Wen Wang, Qian Chen, Zhou Zhao, Wei Xue
主题: 音频与语音处理 (eess.AS) ; 计算机视觉与模式识别 (cs.CV) ; 声音 (cs.SD)
[3036] arXiv:2506.21458 (交叉列表自 cs.AI) [中文pdf, pdf, 其他]
标题: 从有限视角的空间心理建模
标题: Spatial Mental Modeling from Limited Views
Baiqiao Yin, Qineng Wang, Pingyue Zhang, Jianshu Zhang, Kangrui Wang, Zihan Wang, Jieyu Zhang, Keshigeyan Chandrasegaran, Han Liu, Ranjay Krishna, Saining Xie, Manling Li, Jiajun Wu, Li Fei-Fei
评论: 预印本版本
主题: 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV)
[3037] arXiv:2506.21499 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 轻量级物理信息零样本超声平面波去噪
标题: Lightweight Physics-Informed Zero-Shot Ultrasound Plane Wave Denoising
Hojat Asgariandehkordi, Mostafa Sharifzadeh, Hassan Rivaz
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3038] arXiv:2506.21535 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 探索用于CT报告生成的3D MLLMs的设计空间
标题: Exploring the Design Space of 3D MLLMs for CT Report Generation
Mohammed Baharoon, Jun Ma, Congyu Fang, Augustin Toma, Bo Wang
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
[3039] arXiv:2506.21537 (交叉列表自 quant-ph) [中文pdf, pdf, html, 其他]
标题: ResQ:一种在模拟 Rydberg 原子量子计算机上实现残差神经网络的新框架
标题: ResQ: A Novel Framework to Implement Residual Neural Networks on Analog Rydberg Atom Quantum Computers
Nicholas S. DiBrita, Jason Han, Tirthak Patel
评论: ResQ 将出现在 IEEE 国际计算机视觉会议(ICCV)2025 的论文集上。
主题: 量子物理 (quant-ph) ; 计算机视觉与模式识别 (cs.CV) ; 新兴技术 (cs.ET)
[3040] arXiv:2506.21586 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 视觉语言模型能理解模仿动作吗?
标题: Can Vision Language Models Understand Mimed Actions?
Hyundong Cho, Spencer Lin, Tejas Srinivasan, Michael Saxon, Deuksin Kwon, Natali T. Chavez, Jonathan May
评论: ACL 2025 论文集
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[3041] arXiv:2506.21592 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: SignBart -- 用于孤立手语识别的新方法与骨架序列
标题: SignBart -- New approach with the skeleton sequence for Isolated Sign language Recognition
Tinh Nguyen, Minh Khue Phan Tran
主题: 计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV)
[3042] arXiv:2506.21601 (交叉列表自 cs.IR) [中文pdf, pdf, html, 其他]
标题: 基于层次化补丁压缩的 ColPali:具有动态剪枝和量化高效多向量文档检索
标题: Hierarchical Patch Compression for ColPali: Efficient Multi-Vector Document Retrieval with Dynamic Pruning and Quantization
Duong Bach
评论: 9页
主题: 信息检索 (cs.IR) ; 计算机视觉与模式识别 (cs.CV)
[3043] arXiv:2506.21604 (交叉列表自 cs.IR) [中文pdf, pdf, html, 其他]
标题: 评估VisualRAG:量化企业文档理解中的跨模态性能
标题: Evaluating VisualRAG: Quantifying Cross-Modal Performance in Enterprise Document Understanding
Varun Mannam, Fang Wang, Xin Chen
评论: 会议:KDD 会议 工作坊: https://kdd-eval-workshop.github.io/genai-evaluation-kdd2025/
主题: 信息检索 (cs.IR) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 人机交互 (cs.HC) ; 机器学习 (cs.LG)
[3044] arXiv:2506.21629 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: ICP-3DGS:用于大规模无限场景的无SfM三维高斯点云
标题: ICP-3DGS: SfM-free 3D Gaussian Splatting for Large-scale Unbounded Scenes
Chenhao Zhang, Yezhi Shen, Fengqing Zhu
评论: 6页,源代码可在 https://github.com/Chenhao-Z/ICP-3DGS 获取。将发表于ICIP 2025
主题: 图形学 (cs.GR)
[3045] arXiv:2506.21630 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: TOMD:一种基于路径的非公路多模态数据集,用于在具有挑战性的光照条件下可行驶路径分割
标题: TOMD: A Trail-based Off-road Multimodal Dataset for Traversable Pathway Segmentation under Challenging Illumination Conditions
Yixin Sun, Li Li, Wenke E, Amir Atapour-Abarghouei, Toby P. Breckon
评论: 8页,9图,2025 IJCNN
主题: 机器人技术 (cs.RO) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
[3046] arXiv:2506.21635 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: AeroLite-MDNet:用于无人机着陆的轻量级多任务偏差检测网络
标题: AeroLite-MDNet: Lightweight Multi-task Deviation Detection Network for UAV Landing
Haiping Yang, Huaxing Liu, Wei Wu, Zuohui Chen, Ning Wu
主题: 机器人技术 (cs.RO) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[3047] arXiv:2506.21655 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: APO:通过非对称策略优化增强多模态大语言模型的推理能力
标题: APO: Enhancing Reasoning Ability of MLLMs via Asymmetric Policy Optimization
Minjie Hong, Zirun Guo, Yan Xia, Zehan Wang, Ziang Zhang, Tao Jin, Zhou Zhao
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[3048] arXiv:2506.21680 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 光子喷溅:从SPAD传感器进行3D场景重建和着色
标题: PhotonSplat: 3D Scene Reconstruction and Colorization from SPAD Sensors
Sai Sri Teja, Sreevidya Chintalapati, Vinayak Gupta, Mukund Varma T, Haejoon Lee, Aswin Sankaranarayanan, Kaushik Mitra
评论: 被国际计算摄影会议(ICCP)2025接受
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3049] arXiv:2506.21714 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: 常微分方程$_t$(常微分方程$_l$):在扩散和流模型中缩短时间和长度以实现更快的采样
标题: ODE$_t$(ODE$_l$): Shortcutting the Time and Length in Diffusion and Flow Models for Faster Sampling
Denis Gudovskiy, Wenzhao Zheng, Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer
评论: 预印本。GitHub 页面:github.com/gudovskiy/odelt
主题: 机器学习 (cs.LG) ; 计算机视觉与模式识别 (cs.CV)
[3050] arXiv:2506.21732 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: 基于滑动转向的视觉导航的姿态感知强化学习实验研究
标题: Experimental investigation of pose informed reinforcement learning for skid-steered visual navigation
Ameya Salvi, Venkat Krovi
主题: 机器人技术 (cs.RO) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG) ; 系统与控制 (eess.SY)
[3051] arXiv:2506.21748 (交叉列表自 physics.optics) [中文pdf, pdf, html, 其他]
标题: 基于扩散模型的衍射超表面的逆向设计
标题: Inverse Design of Diffractive Metasurfaces Using Diffusion Models
Liav Hen, Erez Yosef, Dan Raviv, Raja Giryes, Jacob Scheuer
主题: 光学 (physics.optics) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
[3052] arXiv:2506.21765 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: TUS-REC2024:一种在没有外部跟踪器的情况下重建3D徒手超声的挑战
标题: TUS-REC2024: A Challenge to Reconstruct 3D Freehand Ultrasound Without External Tracker
Qi Li, Shaheer U. Saeed, Yuliang Huang, Mingyuan Luo, Zhongnuo Yan, Jiongquan Chen, Xin Yang, Dong Ni, Nektarios Winter, Phuc Nguyen, Lucas Steinberger, Caelan Haney, Yuan Zhao, Mingjie Jiang, Bowen Ren, SiYeoul Lee, Seonho Kim, MinKyung Seo, MinWoo Kim, Yimeng Dou, Zhiwei Zhang, Yin Li, Tomy Varghese, Dean C. Barratt, Matthew J. Clarkson, Tom Vercauteren, Yipeng Hu
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3053] arXiv:2506.21812 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 迈向透明的人工智能:可解释大型语言模型的综述
标题: Towards Transparent AI: A Survey on Explainable Large Language Models
Avash Palikhe, Zhenyu Yu, Zichong Wang, Wenbin Zhang
主题: 计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV)
[3054] arXiv:2506.21860 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: 具身领域自适应的目标检测
标题: Embodied Domain Adaptation for Object Detection
Xiangyu Shi, Yanyuan Qiao, Lingqiao Liu, Feras Dayoub
评论: 被IROS 2025接收
主题: 机器人技术 (cs.RO) ; 计算机视觉与模式识别 (cs.CV)
[3055] arXiv:2506.21876 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 视觉语言模型是否有内部世界模型? 面向原子评估
标题: Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation
Qiyue Gao, Xinyu Pi, Kevin Liu, Junrong Chen, Ruolan Yang, Xinqi Huang, Xinyu Fang, Lu Sun, Gautham Kishore, Bo Ai, Stone Tao, Mengyang Liu, Jiaxi Yang, Chao-Jung Lai, Chuanyang Jin, Jiannan Xiang, Benhao Huang, Zeming Chen, David Danks, Hao Su, Tianmin Shu, Ziqiao Ma, Lianhui Qin, Zhiting Hu
评论: ACL 2025(成果)
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[3056] arXiv:2506.21880 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 基于物理退化模型引导的非干涉超光谱重建与展开变压器
标题: Physical Degradation Model-Guided Interferometric Hyperspectral Reconstruction with Unfolding Transformer
Yuansheng Li, Yunhao Zou, Linwei Chen, Ying Fu
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3057] arXiv:2506.21884 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: UnMix-NeRF:光谱解混遇见神经辐射场
标题: UnMix-NeRF: Spectral Unmixing Meets Neural Radiance Fields
Fabian Perez, Sara Rojas, Carlos Hinojosa, Hoover Rueda-Chacón, Bernard Ghanem
评论: 论文被ICCV 2025主会议接收
主题: 图像与视频处理 (eess.IV) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG) ; 信号处理 (eess.SP)
[3058] arXiv:2506.21934 (交叉列表自 cs.IR) [中文pdf, pdf, html, 其他]
标题: CAL-RAG:内容感知版面设计的检索增强型多智能体生成
标题: CAL-RAG: Retrieval-Augmented Multi-Agent Generation for Content-Aware Layout Design
Najmeh Forouzandehmehr, Reza Yousefi Maragheh, Sriram Kollipara, Kai Zhao, Topojoy Biswas, Evren Korpeoglu, Kannan Achan
主题: 信息检索 (cs.IR) ; 计算机视觉与模式识别 (cs.CV)
[3059] arXiv:2506.21976 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: SceneDiffuser++:通过生成式世界模型进行城市规模的交通模拟
标题: SceneDiffuser++: City-Scale Traffic Simulation via a Generative World Model
Shuhan Tan, John Lambert, Hong Jeon, Sakshum Kulshrestha, Yijing Bai, Jing Luo, Dragomir Anguelov, Mingxing Tan, Chiyu Max Jiang
评论: 被CVPR 2025接收
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 多智能体系统 (cs.MA) ; 机器人技术 (cs.RO)
[3060] arXiv:2506.21977 (交叉列表自 eess.IV) [中文pdf, pdf, 其他]
标题: 稳定编解码器:用于极端图像压缩的一步扩散方法
标题: StableCodec: Taming One-Step Diffusion for Extreme Image Compression
Tianyu Zhang, Xin Luo, Li Li, Dong Liu
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3061] arXiv:2506.22012 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 基于噪声的扩散模型用于可泛化的低剂量CT重建
标题: Noise-Inspired Diffusion Model for Generalizable Low-Dose CT Reconstruction
Qi Gao, Zhihao Chen, Dong Zeng, Junping Zhang, Jianhua Ma, Hongming Shan
评论: 已接受发表于《医学图像分析》,2025年
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3062] arXiv:2506.22041 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 通过多模态深度学习实现可扩展且稳健的白质病变定位
标题: Towards Scalable and Robust White Matter Lesion Localization via Multimodal Deep Learning
Julia Machnio, Sebastian Nørgaard Llambias, Mads Nielsen, Mostafa Mehdipour Ghazi
评论: 第二届索邦-海德堡医学人工智能研讨会:用于多模态数据的机器学习
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3063] arXiv:2506.22116 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: 评估在人机协作中目标选择的指向手势
标题: Evaluating Pointing Gestures for Target Selection in Human-Robot Collaboration
Noora Sassali, Roel Pieters
评论: 被2025年第34届IEEE国际机器人与人机交互通信会议(RO-MAN)接受。预印本
主题: 机器人技术 (cs.RO) ; 计算机视觉与模式识别 (cs.CV)
[3064] arXiv:2506.22156 (交叉列表自 cs.AR) [中文pdf, pdf, html, 其他]
标题: FPGA上用于MRF图重建的超快速神经网络训练的硬件加速
标题: Hardware acceleration for ultra-fast Neural Network training on FPGA for MRF map reconstruction
Mattia Ricchi, Fabrizio Alfonsi, Camilla Marella, Marco Barbieri, Alessandra Retico, Leonardo Brizi, Alessandro Gabrielli, Claudia Testa
评论: 8页,2张图表,将发表在SDPS 2024会议论文集上:2024年国际设计与过程科学学会关于在设计与过程科学中应用人工智能/生成式人工智能的进展与挑战会议
主题: 硬件架构 (cs.AR) ; 计算机视觉与模式识别 (cs.CV) ; 仪器与探测器 (physics.ins-det)
[3065] arXiv:2506.22176 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: KnotDLO:迈向可解释的打结
标题: KnotDLO: Toward Interpretable Knot Tying
Holly Dinkel, Raghavendra Navaratna, Jingyi Xiang, Brian Coltin, Trey Smith, Timothy Bretl
评论: 4页,5张图,在2023年日本横滨举行的IEEE国际机器人与自动化会议的3D视觉表示操作研讨会中发表。视频演示 [https://youtu.be/mg30uCUtpOk]。海报 [https://hollydinkel.github.io/assets/pdf/ICRA20243DVRM_poster.pdf] 3DVRM 研讨会 [https://3d-manipulation-workshop.github.io/]
主题: 机器人技术 (cs.RO) ; 计算机视觉与模式识别 (cs.CV)
[3066] arXiv:2506.22222 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 基于深度学习的先进方法用于B型主动脉夹层的自动分割
标题: Advanced Deep Learning Techniques for Automated Segmentation of Type B Aortic Dissections
Hao Xu, Ruth Lim, Brian E. Chapman
评论: 9页,5图,3表
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3067] arXiv:2506.22226 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 基于心脏CT的放射组学和几何特征的心血管疾病分类
标题: Cardiovascular disease classification using radiomics and geometric features from cardiac CT
Ajay Mittal, Raghav Mehta, Omar Todd, Philipp Seeböck, Georg Langs, Ben Glocker
评论: 正在STACOM 2025与MICCAI 2025审稿中
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3068] arXiv:2506.22280 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: DIGS:使用形变感知的4D高斯点云动态CBCT重建和低秩自由形态形变模型
标题: DIGS: Dynamic CBCT Reconstruction using Deformation-Informed 4D Gaussian Splatting and a Low-Rank Free-Form Deformation Model
Yuliang Huang, Imraj Singh, Thomas Joyce, Kris Thielemans, Jamie R. McClelland
评论: 被MICCAI 2025接收
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3069] arXiv:2506.22304 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: 使用Koopman算子展开生成流:快速且可解释的采样
标题: Unfolding Generative Flows with Koopman Operators: Fast and Interpretable Sampling
Erkan Turan, Aristotelis Siozopoulos, Maks Ovsjanikov
主题: 机器学习 (cs.LG) ; 计算机视觉与模式识别 (cs.CV)
[3070] arXiv:2506.22340 (交叉列表自 quant-ph) [中文pdf, pdf, html, 其他]
标题: QuKAN:一种量子电路生成模型方法用于量子柯尔莫戈罗夫-阿诺德网络
标题: QuKAN: A Quantum Circuit Born Machine approach to Quantum Kolmogorov Arnold Networks
Yannick Werner, Akash Malemath, Mengxi Liu, Vitor Fortes Rey, Nikolaos Palaiodimopoulos, Paul Lukowicz, Maximilian Kiefer-Emmanouilidis
主题: 量子物理 (quant-ph) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
[3071] arXiv:2506.22397 (交叉列表自 eess.IV) [中文pdf, pdf, 其他]
标题: 引导条件流匹配去雾光显微镜图像:在保真度和真实感之间的平衡点
标题: Dehazing Light Microscopy Images with Guided Conditional Flow Matching: finding a sweet spot between fidelity and realism
Anirban Ray, Ashesh, Florian Jug
评论: 4幅图,10页+参考文献,总计40页(包括补充材料),24幅补充图
主题: 图像与视频处理 (eess.IV) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[3072] arXiv:2506.22426 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 使用传统图像传感器快门功能和光学随机化的单次HDR
标题: Single-shot HDR using conventional image sensor shutter functions and optical randomization
Xiang Dai, Kyrollos Yanny, Kristina Monakhova, Nicholas Antipa
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV) ; 图形学 (cs.GR) ; 信号处理 (eess.SP) ; 光学 (physics.optics)
[3073] arXiv:2506.22467 (交叉列表自 eess.SP) [中文pdf, pdf, 其他]
标题: SegmentAnyMuscle:一种跨不同位置的磁共振成像肌肉分割通用模型
标题: SegmentAnyMuscle: A universal muscle segmentation model across different locations in MRI
Roy Colglazier, Jisoo Lee, Haoyu Dong, Hanxue Gu, Yaqian Chen, Joseph Cao, Zafer Yildiz, Zhonghao Liu, Nicholas Konz, Jichen Yang, Jikai Zhang, Yuwen Chen, Lin Li, Adrian Camarena, Maciej A. Mazurowski
评论: 24页,6图
主题: 信号处理 (eess.SP) ; 计算机视觉与模式识别 (cs.CV)
[3074] arXiv:2506.22482 (交叉列表自 cs.NI) [中文pdf, pdf, 其他]
标题: 使用社交网络网站的无线家庭自动化
标题: Wireless Home Automation Using Social Networking Websites
Divya Alok Gupta, Dwith Chenna, B. Aditya Vighnesh Ramakanth
评论: 第20届国际高级计算与通信大会(ADCOM)2014
主题: 网络与互联网架构 (cs.NI) ; 密码学与安全 (cs.CR) ; 计算机视觉与模式识别 (cs.CV)
[3075] arXiv:2506.22494 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: DriveBLIP2:复杂驾驶场景的注意力引导解释生成
标题: DriveBLIP2: Attention-Guided Explanation Generation for Complex Driving Scenarios
Shihong Ling, Yue Wan, Xiaowei Jia, Na Du
评论: 被IEEE/RSJ国际智能机器人与系统会议(IROS)2025接受。7页,3图
主题: 机器人技术 (cs.RO) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
[3076] arXiv:2506.22532 (交叉列表自 eess.IV) [中文pdf, pdf, 其他]
标题: 高分辨率各向同性3D电影成像,使用串联2D实时成像和深度学习进行自动分割
标题: High Resolution Isotropic 3D Cine imaging with Automated Segmentation using Concatenated 2D Real-time Imaging and Deep Learning
Mark Wrobel (1), Michele Pascale (1), Tina Yao (1), Ruaraidh Campbell (1), Elena Milano (2), Michael Quail (1 and 2), Jennifer Steeden (1), Vivek Muthurangu (1) ((1) UCL Centre for Translational Cardiovascular Imaging, University College London, (2) Great Ormond Street Hospital)
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
[3077] arXiv:2506.22568 (交叉列表自 math.OC) [中文pdf, pdf, html, 其他]
标题: 最大离散性,最大集中性:提高MOP解的质量
标题: Maximum Dispersion, Maximum Concentration: Enhancing the Quality of MOP Solutions
Gladston Moreira, Ivan Meneghini, Elizabeth Wanner
评论: 11页
主题: 优化与控制 (math.OC) ; 计算机视觉与模式识别 (cs.CV)
[3078] arXiv:2506.22580 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: FedCLAM:用于联邦医学图像分割的客户端自适应动量与前景强度匹配
标题: FedCLAM: Client Adaptive Momentum with Foreground Intensity Matching for Federated Medical Image Segmentation
Vasilis Siomos, Jonathan Passerat-Palmbach, Giacomo Tarroni
评论: 10页,2张图,被MICCAI 2025接收
主题: 图像与视频处理 (eess.IV) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[3079] arXiv:2506.22593 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: 像素到图:用于语义几何人机理解的建筑信息模型与场景图的实时集成
标题: Pixels-to-Graph: Real-time Integration of Building Information Models and Scene Graphs for Semantic-Geometric Human-Robot Understanding
Antonello Longo, Chanyoung Chung, Matteo Palieri, Sung-Kyun Kim, Ali Agha, Cataldo Guaragnella, Shehryar Khattak
评论: 论文被2025年IEEE自动化科学与工程国际会议(CASE)接收
主题: 机器人技术 (cs.RO) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[3080] arXiv:2506.22706 (交叉列表自 cs.CR) [中文pdf, pdf, 其他]
标题: 通用自主网络安全防御:动态拓扑和多样化攻击者的鲁棒策略学习
标题: General Autonomous Cybersecurity Defense: Learning Robust Policies for Dynamic Topologies and Diverse Attackers
Arun Ramamurthy, Neil Dhir
主题: 密码学与安全 (cs.CR) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (stat.ML)
[3081] arXiv:2506.22790 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: ICME 2025 可推广的HDR和SDR视频质量评估大挑战
标题: ICME 2025 Generalizable HDR and SDR Video Quality Measurement Grand Challenge
Yixu Chen, Bowen Chen, Hai Wei, Alan C. Bovik, Baojun Li, Wei Sun, Linhan Cao, Kang Fu, Dandan Zhu, Jun Jia, Menghan Hu, Xiongkuo Min, Guangtao Zhai, Dounia Hammou, Fei Yin, Rafal Mantiuk, Amritha Premkumar, Prajit T Rajendran, Vignesh V Menon
评论: ICME 2025 大挑战
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[3082] arXiv:2506.22799 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: VoteSplat:霍夫投票高斯点云投影用于三维场景理解
标题: VoteSplat: Hough Voting Gaussian Splatting for 3D Scene Understanding
Minchao Jiang, Shunyu Jia, Jiaming Gu, Xiaoyuan Lu, Guangming Zhu, Anqi Dong, Liang Zhang
评论: 被ICCV 2025接收
主题: 图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
[3083] arXiv:2506.22802 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: 生成模型的黎曼几何指纹
标题: Riemannian-Geometric Fingerprints of Generative Models
Hae Jin Song, Laurent Itti
主题: 机器学习 (cs.LG) ; 密码学与安全 (cs.CR) ; 计算机视觉与模式识别 (cs.CV)
[3084] arXiv:2506.22826 (交叉列表自 math.OC) [中文pdf, pdf, html, 其他]
标题: 通过松弛正则化去噪多色二维码和斯特费尔值数据
标题: Denoising Multi-Color QR Codes and Stiefel-Valued Data by Relaxed Regularizations
Robert Beinert, Jonas Bresch
评论: 9页,2图,3算法
主题: 优化与控制 (math.OC) ; 计算机视觉与模式识别 (cs.CV) ; 数值分析 (math.NA)
[3085] arXiv:2506.22882 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: CA-Diff:用于脑组织分割的协作解剖扩散
标题: CA-Diff: Collaborative Anatomy Diffusion for Brain Tissue Segmentation
Qilong Xing, Zikai Song, Yuteng Ye, Yuke Chen, Youjia Zhang, Na Feng, Junqing Yu, Wei Yang
评论: ICME 2025
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
[3086] arXiv:2506.22952 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 基于状态空间的向量量化的大脑动态分层表征
标题: Hierarchical Characterization of Brain Dynamics via State Space-based Vector Quantization
Yanwu Yang, Thomas Wolfers
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV) ; 神经与认知 (q-bio.NC)
[3087] arXiv:2506.22973 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: 置信度喷射:通过可学习的贝塔分布进行置信度压缩的3D高斯喷射
标题: Confident Splatting: Confidence-Based Compression of 3D Gaussian Splatting via Learnable Beta Distributions
AmirHossein Naghi Razlighi, Elaheh Badali Golezani, Shohreh Kasaei
主题: 图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV)
[3088] arXiv:2506.22992 (交叉列表自 cs.AI) [中文pdf, pdf, html, 其他]
标题: MARBLE:多模态空间推理与规划的硬基准
标题: MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning
Yulun Jiang, Yekun Chai, Maria Brbić, Michael Moor
主题: 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV)
[3089] arXiv:2506.23016 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]
标题: 使用眼动和视觉记忆任务中的图像内容在轻度认知障碍诊断中的深度学习
标题: Deep Learning in Mild Cognitive Impairment Diagnosis using Eye Movements and Image Content in Visual Memory Tasks
Tomás Silva Santos Rocha, Anastasiia Mikhailova, Moreno I. Coco, José Santos-Victor
评论: 13页,5图
主题: 人机交互 (cs.HC) ; 计算机视觉与模式识别 (cs.CV)
[3090] arXiv:2506.23041 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: ReMem:用于有效知识蒸馏的预训练视觉变换器的互信息感知微调
标题: ReMem: Mutual Information-Aware Fine-tuning of Pretrained Vision Transformers for Effective Knowledge Distillation
Chengyu Dong, Huan Gui, Noveen Sachdeva, Long Jin, Ke Yin, Jingbo Shang, Lichan Hong, Ed H.Chi, Zhe Zhao
主题: 机器学习 (cs.LG) ; 计算机视觉与模式识别 (cs.CV)
[3091] arXiv:2506.23046 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: SoMi-ToM:在具身社会互动中评估多视角心智理论
标题: SoMi-ToM: Evaluating Multi-Perspective Theory of Mind in Embodied Social Interactions
Xianzhe Fan, Xuhui Zhou, Chuanyang Jin, Kolby Nottingham, Hao Zhu, Maarten Sap
评论: 23页,6图
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 机器人技术 (cs.RO)
[3092] arXiv:2506.23102 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: MedRegion-CT:面向区域的多模态大语言模型用于全面的3D CT报告生成
标题: MedRegion-CT: Region-Focused Multimodal LLM for Comprehensive 3D CT Report Generation
Sunggu Kyung, Jinyoung Seo, Hyunseok Lim, Dongyeong Kim, Hyungbin Park, Jimin Sung, Jihyun Kim, Wooyoung Jo, Yoojin Nam, Namkug Kim
评论: 14页,5张图,提交至ICCV 2025
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3093] arXiv:2506.23121 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: CRISP-SAM2:用于多器官分割的具有跨模态交互和语义提示的SAM2
标题: CRISP-SAM2: SAM2 with Cross-Modal Interaction and Semantic Prompting for Multi-Organ Segmentation
Xinlei Yu, Changmiao Wang, Hui Jin, Ahmed Elazab, Gangyong Jia, Xiang Wan, Changqing Zou, Ruiquan Ge
评论: 被ACMMM25接受
主题: 图像与视频处理 (eess.IV) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
[3094] arXiv:2506.23145 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: 遗忘-MI:医疗环境中遗忘多模态信息的机器遗忘
标题: Forget-MI: Machine Unlearning for Forgetting Multimodal Information in Healthcare Settings
Shahad Hardan, Darya Taratynova, Abdelmajid Essofi, Karthik Nandakumar, Mohammad Yaqub
主题: 机器学习 (cs.LG) ; 密码学与安全 (cs.CR) ; 计算机视觉与模式识别 (cs.CV)
[3095] arXiv:2506.23147 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: 机动识别 -- 用于车辆遥测领域时间序列分类的 Python 包
标题: maneuverRecognition -- A Python package for Timeseries Classification in the domain of Vehicle Telematics
Jonathan Schuster, Fabian Transchel
评论: 6页,2图
主题: 机器学习 (cs.LG) ; 计算机视觉与模式识别 (cs.CV)
[3096] arXiv:2506.23184 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 基于分数的非配对虚拟组织染色扩散模型
标题: Score-based Diffusion Model for Unpaired Virtual Histology Staining
Anran Liu, Xiaofei Wang, Jing Cai, Chao Li
评论: 11页,3图
主题: 图像与视频处理 (eess.IV) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[3097] arXiv:2506.23208 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 基于方差风险外推的多源新冠病毒检测
标题: Multi-Source COVID-19 Detection via Variance Risk Extrapolation
Runtian Yuan, Qingqiu Li, Junlin Hou, Jilan Xu, Yuejie Zhang, Rui Feng, Hao Chen
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3098] arXiv:2506.23221 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: 基于通用再生核的单图像修复与超分辨率同时不确定性保证
标题: Single Image Inpainting and Super-Resolution with Simultaneous Uncertainty Guarantees by Universal Reproducing Kernels
Bálint Horváth, Balázs Csanád Csáji
评论: 23页,8图,6表
主题: 机器学习 (cs.LG) ; 计算机视觉与模式识别 (cs.CV)
[3099] arXiv:2506.23259 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 通过合成心电图预训练提高心肌梗死检测
标题: Improving Myocardial Infarction Detection via Synthetic ECG Pretraining
Lachin Naghashyar
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3100] arXiv:2506.23305 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: BPD-Neo:一种用于新生儿支气管肺发育不良的带有临床数据的肺部气管分割MRI数据集
标题: BPD-Neo: An MRI Dataset for Lung-Trachea Segmentation with Clinical Data for Neonatal Bronchopulmonary Dysplasia
Rachit Saluja, Arzu Kovanlikaya, Candace Chien, Lauren Kathryn Blatt, Jeffrey M. Perlman, Stefan Worgall, Mert R. Sabuncu, Jonathan P. Dyke
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3101] arXiv:2506.23309 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: SurgTPGS:具有文本提示的高斯点云语义3D外科场景理解
标题: SurgTPGS: Semantic 3D Surgical Scene Understanding with Text Promptable Gaussian Splatting
Yiming Huang, Long Bai, Beilei Cui, Kun Yuan, Guankun Wang, Mobarak I. Hoque, Nicolas Padoy, Nassir Navab, Hongliang Ren
评论: MICCAI 2025。项目页面: https://lastbasket.github.io/MICCAI-2025-SurgTPGS/
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3102] arXiv:2506.23316 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: InfGen:场景生成作为下一个标记组预测
标题: InfGen: Scenario Generation as Next Token Group Prediction
Zhenghao Peng, Yuxin Liu, Bolei Zhou
主题: 机器人技术 (cs.RO) ; 计算机视觉与模式识别 (cs.CV)
[3103] arXiv:2506.23334 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 基于合成超声图像增强的联邦乳腺癌检测
标题: Federated Breast Cancer Detection Enhanced by Synthetic Ultrasound Image Augmentation
Hongyi Pan, Ziliang Hong, Gorkem Durak, Ziyue Xu, Ulas Bagci
主题: 图像与视频处理 (eess.IV) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[3104] arXiv:2506.23466 (交叉列表自 eess.IV) [中文pdf, pdf, 其他]
标题: FD-DiT:频域引导的扩散变压器用于低剂量CT重建
标题: FD-DiT: Frequency Domain-Directed Diffusion Transformer for Low-Dose CT Reconstruction
Qiqing Liu, Guoquan Wei, Zekun Zhou, Yiyang Wen, Liu Shi, Qiegen Liu
评论: 11页,11图
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV) ; 医学物理 (physics.med-ph)
[3105] arXiv:2506.23471 (交叉列表自 cs.IR) [中文pdf, pdf, html, 其他]
标题: KiseKloset:服装检索、推荐和试穿的综合系统
标题: KiseKloset: Comprehensive System For Outfit Retrieval, Recommendation, And Try-On
Thanh-Tung Phan-Nguyen, Khoi-Nguyen Nguyen-Ngoc, Tam V. Nguyen, Minh-Triet Tran, Trung-Nghia Le
主题: 信息检索 (cs.IR) ; 计算机视觉与模式识别 (cs.CV)
[3106] arXiv:2506.23484 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: TAG-WM:通过扩散反演敏感性感知篡改的生成图像水印
标题: TAG-WM: Tamper-Aware Generative Image Watermarking via Diffusion Inversion Sensitivity
Yuzhuo Chen, Zehua Ma, Han Fang, Weiming Zhang, Nenghai Yu
评论: 被ICCV 2025接收(2025 IEEE/CVF国际计算机视觉会议)
主题: 多媒体 (cs.MM) ; 计算机视觉与模式识别 (cs.CV) ; 图像与视频处理 (eess.IV)
[3107] arXiv:2506.23490 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: UltraTwin:从多视图2D超声波走向心脏解剖双生体生成
标题: UltraTwin: Towards Cardiac Anatomical Twin Generation from Multi-view 2D Ultrasound
Junxuan Yu, Yaofei Duan, Yuhao Huang, Yu Wang, Rongbo Ling, Weihao Luo, Ang Zhang, Jingxian Xu, Qiongying Ni, Yongsong Zhou, Binghan Li, Haoran Dou, Liping Liu, Yanfen Chu, Feng Geng, Zhe Sheng, Zhifeng Ding, Dingxin Zhang, Rui Huang, Yuhang Zhang, Xiaowei Xu, Tao Tan, Dong Ni, Zhongshan Gou, Xin Yang
评论: 被MICCAI 2025接受
主题: 图像与视频处理 (eess.IV) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[3108] arXiv:2506.23492 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: 样本边缘感知的温度校准
标题: Sample Margin-Aware Recalibration of Temperature Scaling
Haolan Guo, Linwei Tao, Haoyang Luo, Minjing Dong, Chang Xu
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[3109] arXiv:2506.23506 (交叉列表自 eess.IV) [中文pdf, pdf, 其他]
标题: 人工智能辅助的像素级肺部(APL)评分用于超短回波时间磁共振成像中的快速准确量化
标题: Artificial Intelligence-assisted Pixel-level Lung (APL) Scoring for Fast and Accurate Quantification in Ultra-short Echo-time MRI
Bowen Xin, Rohan Hickey, Tamara Blake, Jin Jin, Claire E Wainwright, Thomas Benkert, Alto Stemmer, Peter Sly, David Coman, Jason Dowling
评论: 口头报告在ISMRM2025上
主题: 图像与视频处理 (eess.IV) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 医学物理 (physics.med-ph)
[3110] arXiv:2506.23516 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: FedWSQ:具有权重标准化和分布感知非均匀量化的大规模联邦学习
标题: FedWSQ: Efficient Federated Learning with Weight Standardization and Distribution-Aware Non-Uniform Quantization
Seung-Wook Kim, Seongyeol Kim, Jiah Kim, Seowon Ji, Se-Ho Lee
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[3111] arXiv:2506.23537 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: AFUNet:通过深度展开范式进行HDR重建的交叉迭代对齐-融合协同
标题: AFUNet: Cross-Iterative Alignment-Fusion Synergy for HDR Reconstruction via Deep Unfolding Paradigm
Xinyue Li, Zhangkai Ni, Wenhan Yang
评论: 被国际计算机视觉会议(ICCV)2025接收
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3112] arXiv:2506.23563 (交叉列表自 cs.AI) [中文pdf, pdf, html, 其他]
标题: MMReason:面向通用人工智能的开放性多模态多步骤推理基准
标题: MMReason: An Open-Ended Multi-Modal Multi-Step Reasoning Benchmark for MLLMs Toward AGI
Huanjin Yao, Jiaxing Huang, Yawen Qiu, Michael K. Chen, Wenzheng Liu, Wei Zhang, Wenjie Zeng, Xikun Zhang, Jingyi Zhang, Yuxin Song, Wenhao Wu, Dacheng Tao
评论: 技术报告
主题: 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV)
[3113] arXiv:2506.23584 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 基于临床的两阶段肾CT报告生成框架
标题: A Clinically-Grounded Two-Stage Framework for Renal CT Report Generation
Renjie Liang, Zhengkang Fan, Jinqian Pan, Chenkun Sun, Russell Terry, Jie Xu
主题: 图像与视频处理 (eess.IV) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[3114] arXiv:2506.23664 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 基于扩散模型的胎儿头部超声分割数据增强方法
标题: Diffusion Model-based Data Augmentation Method for Fetal Head Ultrasound Segmentation
Fangyijie Wang, Kevin Whelan, Félix Balado, Kathleen M. Curran, Guénolé Silvestre
评论: 被爱尔兰机器视觉与图像处理会议(IMVIP)2025接受
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3115] arXiv:2506.23700 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: MedSAM-CA:一种带有注意力增强多尺度融合的卷积神经网络增强型ViT用于医学图像分割
标题: MedSAM-CA: A CNN-Augmented ViT with Attention-Enhanced Multi-Scale Fusion for Medical Image Segmentation
Peiting Tian, Xi Chen, Haixia Bi, Fan Li
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3116] arXiv:2506.23701 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: MDPG:多领域扩散先验引导的MRI重建
标题: MDPG: Multi-domain Diffusion Prior Guidance for MRI Reconstruction
Lingtong Zhang, Mengdie Song, Xiaohan Hao, Huayu Mai, Bensheng Qiu
评论: 通过MICCAI2025
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3117] arXiv:2506.23717 (交叉列表自 cs.NE) [中文pdf, pdf, html, 其他]
标题: 通过自适应位分配实现高效且准确的脉冲神经网络
标题: Towards Efficient and Accurate Spiking Neural Networks via Adaptive Bit Allocation
Xingting Yao, Qinghao Hu, Fei Zhou, Tielong Liu, Gang Li, Peisong Wang, Jian Cheng
主题: 神经与进化计算 (cs.NE) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
[3118] arXiv:2506.23721 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 基于深度学习的语义分割在增强现实辅助超声实时肾脏成像与测量中的应用
标题: Deep Learning-Based Semantic Segmentation for Real-Time Kidney Imaging and Measurements with Augmented Reality-Assisted Ultrasound
Gijs Luijten, Roberto Maria Scardigno, Lisle Faray de Paiva, Peter Hoyer, Jens Kleesiek, Domenico Buongiorno, Vitoantonio Bevilacqua, Jan Egger
主题: 图像与视频处理 (eess.IV) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 人机交互 (cs.HC) ; 机器学习 (cs.LG)
[3119] arXiv:2506.23731 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: 扩散和自回归图像生成模型中的放射性水印
标题: Radioactive Watermarks in Diffusion and Autoregressive Image Generative Models
Michel Meintz, Jan Dubiński, Franziska Boenisch, Adam Dziedzic
主题: 机器学习 (cs.LG) ; 计算机视觉与模式识别 (cs.CV)
[3120] arXiv:2506.23759 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 手术视频中联邦仪器分割的时空表示解耦与增强
标题: Spatio-Temporal Representation Decoupling and Enhancement for Federated Instrument Segmentation in Surgical Videos
Zheng Fang, Xiaoming Qi, Chun-Mei Feng, Jialun Pei, Weixin Si, Yueming Jin
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3121] arXiv:2506.23824 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: 超簇:重新审视半监督学习中的聚类
标题: Supercm: Revisiting Clustering for Semi-Supervised Learning
Durgesh Singh, Ahcene Boubekki, Robert Jenssen, Michael C. Kampffmeyer
期刊参考: 10.1109/ICASSP49357.2023.10095856
主题: 机器学习 (cs.LG) ; 计算机视觉与模式识别 (cs.CV)
[3122] arXiv:2506.23957 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: GaVS:通过时间一致的局部重建和渲染进行3D定位的视频稳定化
标题: GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering
Zinuo You, Stamatios Georgoulis, Anpei Chen, Siyu Tang, Dengxin Dai
评论: SIGGRAPH 2025,项目网站:https://sinoyou.github.io/gavs
主题: 图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV)
[3123] arXiv:2506.24000 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: 进步的幻觉? 对视觉-语言模型测试时适应的批判性审视
标题: The Illusion of Progress? A Critical Look at Test-Time Adaptation for Vision-Language Models
Lijun Sheng, Jian Liang, Ran He, Zilei Wang, Tieniu Tan
评论: Github链接:https://github.com/TomSheng21/tta-vlm
主题: 机器学习 (cs.LG) ; 计算机视觉与模式识别 (cs.CV)
[3124] arXiv:2506.24003 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 形状工具包
标题: ShapeKit
Junqi Liu, Dongli He, Wenxuan Li, Ningyu Wang, Alan L. Yuille, Zongwei Zhou
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3125] arXiv:2506.24016 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 专家:具有结构化解释的可解释图像字幕评估指标
标题: EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations
Hyunjong Kim, Sangyeop Kim, Jongheon Jeong, Yeongjae Cho, Sungzoon Cho
评论: 被ACL 2025收录为发现成果
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV)
[3126] arXiv:2506.24034 (交叉列表自 physics.med-ph) [中文pdf, pdf, html, 其他]
标题: 基于监督扩散模型的PET图像重建
标题: Supervised Diffusion-Model-Based PET Image Reconstruction
George Webber, Alexander Hammers, Andrew P King, Andrew J Reader
评论: 12页,6张图。提交至MICCAI 2025,未经过同行评审
主题: 医学物理 (physics.med-ph) ; 计算机视觉与模式识别 (cs.CV)
[3127] arXiv:2506.24074 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: C3VDv2 -- 增强现实感的结肠镜三维视频数据集
标题: C3VDv2 -- Colonoscopy 3D video dataset with enhanced realism
Mayank V. Golhar, Lucas Sebastian Galeano Fretes, Loren Ayers, Venkata S. Akshintala, Taylor L. Bobrow, Nicholas J. Durr
评论: 19页,7图
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
[3128] arXiv:2506.24108 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: 在扩散空间中使用退火指导尺度进行导航
标题: Navigating with Annealing Guidance Scale in Diffusion Space
Shai Yehezkel, Omer Dahary, Andrey Voynov, Daniel Cohen-Or
评论: 项目页面: https://annealing-guidance.github.io/annealing-guidance/
主题: 图形学 (cs.GR) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
[3129] arXiv:2506.24124 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: 时间序列教学以观察和表达:具有对齐视觉和文本视角的预测
标题: Teaching Time Series to See and Speak: Forecasting with Aligned Visual and Textual Perspectives
Sixun Dong, Wei Fan, Teresa Wu, Yanjie Fu
评论: 代码:https://github.com/Ironieser/TimesCLIP
主题: 机器学习 (cs.LG) ; 计算机视觉与模式识别 (cs.CV)
总共 3129 条目 : 1-2000 2001-3129 2951-3129
显示最多 2000 每页条目: 较少 | 更多 | 所有
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号