Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs.MM

帮助 | 高级搜索

多媒体

最近提交的作者和标题

  • 2025年09月05日, 星期五
  • 2025年09月04日, 星期四
  • 2025年09月03日, 星期三
  • 2025年09月01日, 星期一
  • 2025年08月29日, 星期五

查看今天的 新的 变化

总共 49 条目
显示最多 50 每页条目: 较少 | 更多 | 所有

2025年09月05日, 星期五 (展示 8 之 8 条目 )

[1] arXiv:2509.04448 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: TRUST-VL:一种用于通用多模态虚假信息检测的可解释新闻助手
标题: TRUST-VL: An Explainable News Assistant for General Multimodal Misinformation Detection
Zehong Yan, Peng Qi, Wynne Hsu, Mong Li Lee
评论: EMNLP 2025;项目主页:https://yanzehong.github.io/trust-vl/
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[2] arXiv:2509.04215 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: PianoBind:流行钢琴音乐的多模态联合嵌入模型
标题: PianoBind: A Multimodal Joint Embedding Model for Pop-piano Music
Hayeon Bang, Eunjin Choi, Seungheon Doh, Juhan Nam
评论: 已接受发表于第26届国际音乐信息检索学会会议(ISMIR 2025)
主题: 声音 (cs.SD) ; 信息检索 (cs.IR) ; 多媒体 (cs.MM)
[3] arXiv:2509.04086 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: TEn-CATS:具有多尺度类别感知时间图的文本增强音视频视频解析
标题: TEn-CATS: Text-Enriched Audio-Visual Video Parsing with Multi-Scale Category-Aware Temporal Graph
Yaru Chen, Faegheh Sardari, Peiliang Zhang, Ruohao Guo, Yang Xiang, Zhenbo Li, Wenwu Wang
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[4] arXiv:2509.03883 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 人体动作视频生成:综述
标题: Human Motion Video Generation: A Survey
Haiwei Xue, Xiangyang Luo, Zhanghao Hu, Xin Zhang, Xunzhi Xiang, Yuqin Dai, Jianzhuang Liu, Zhensong Zhang, Minglei Li, Jian Yang, Fei Ma, Zhiyong Wu, Changpeng Yang, Zonghong Dai, Fei Richard Yu
评论: 已被TPAMI接受。Github仓库:https://github.com/Winn1y/Awesome-Human-Motion-Video-Generation IEEE Access:https://ieeexplore.ieee.org/document/11106267
期刊参考: IEEE模式分析与机器智能汇刊 2025
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[5] arXiv:2509.03693 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]
标题: 设计有效的虚假信息检测人工智能解释:内容、社交和综合解释的比较研究
标题: Designing Effective AI Explanations for Misinformation Detection: A Comparative Study of Content, Social, and Combined Explanations
Yeaeun Gong, Yifan Liu, Lanyu Shang, Na Wei, Dong Wang
评论: 将出现在CSCW 2025上
主题: 人机交互 (cs.HC) ; 多媒体 (cs.MM)
[6] arXiv:2509.03692 (交叉列表自 cs.IR) [中文pdf, pdf, html, 其他]
标题: lifeXplore 在 Lifelog 搜索挑战赛 2021 中
标题: lifeXplore at the Lifelog Search Challenge 2021
Andreas Leibetseder, Klaus Schoeffmann
主题: 信息检索 (cs.IR) ; 多媒体 (cs.MM)
[7] arXiv:2509.03678 (交叉列表自 cs.HC) [中文pdf, pdf, 其他]
标题: 应许之地:一个整合全景画到虚拟工作流程和元素叙事的扩展现实叙述性景点
标题: Promisedland: An XR Narrative Attraction Integrating Diorama-to-Virtual Workflow and Elemental Storytelling
Xianghan Wang, Chingshuan Hsiao, Shimei Qiu
评论: 被接收至2025年第11届国际虚拟现实会议(ICVR 2025)论文集。ISBN:979-8-3503-9272-2。© 2025 IEEE。这是作者接受的稿件。最终版本将通过IEEE Xplore提供。
主题: 人机交互 (cs.HC) ; 多媒体 (cs.MM)
[8] arXiv:2509.03565 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: ResearchPulse:通过多文档科学推理构建方法-实验链
标题: ResearchPulse: Building Method-Experiment Chains through Multi-Document Scientific Inference
Qi Chen, Jingxuan Wei, Zhuoya Yao, Haiguang Wang, Gaowei Wu, Bihui Yu, Siyuan Li, Cheng Tan
评论: 被ACM MM 2025接收
主题: 计算与语言 (cs.CL) ; 多媒体 (cs.MM)

2025年09月04日, 星期四 (展示 4 之 4 条目 )

[9] arXiv:2509.02990 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 自动生成高精度的交通场景模拟道路网络
标题: Automatically Generating High-Precision Simulated Road Networking in Traffic Scenario
Liang Xie, Wenke Huang
评论: 7页,11图
期刊参考: ACM MobiCom 2025
主题: 多媒体 (cs.MM)
[10] arXiv:2509.02924 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 自然仿像:基于代理的模拟和脑类器官集体智能生成的生态系统
标题: Simulacra Naturae: Generative Ecosystem driven by Agent-Based Simulations and Brain Organoid Collective Intelligence
Nefeli Manoudaki, Mert Toka, Iason Paterakis, Diarmid Flatley
评论: 将发表于IEEE VISAP 2025
主题: 多媒体 (cs.MM) ; 人工智能 (cs.AI) ; 人机交互 (cs.HC)
[11] arXiv:2509.03409 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 多级SSL特征门控用于音频深度伪造检测
标题: Multi-level SSL Feature Gating for Audio Deepfake Detection
Hoan My Tran, Damien Lolive, Aghilas Sini, Arnaud Delhay, Pierre-François Marteau, David Guennec
评论: 这篇论文已被ACM MM 2025接收
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[12] arXiv:2509.02969 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: VQualA 2025 短视频参与度预测挑战赛:方法与结果
标题: VQualA 2025 Challenge on Engagement Prediction for Short Videos: Methods and Results
Dasong Li, Sizhuo Ma, Hang Hua, Wenjie Li, Jian Wang, Chris Wei Zhou, Fengbin Guan, Xin Li, Zihao Yu, Yiting Lu, Ru-Ling Liao, Yan Ye, Zhibo Chen, Wei Sun, Linhan Cao, Yuqin Cao, Weixia Zhang, Wen Wen, Kaiwei Zhang, Zijian Chen, Fangfang Lu, Xiongkuo Min, Guangtao Zhai, Erjia Xiao, Lingfeng Zhang, Zhenjie Su, Hao Cheng, Yu Liu, Renjing Xu, Long Chen, Xiaoshuai Hao, Zhenpeng Zeng, Jianqin Wu, Xuxu Wang, Qian Yu, Bo Hu, Weiwei Wang, Pinxin Liu, Yunlong Tang, Luchuan Song, Jinxi He, Jiaru Wu, Hanjia Lyu
评论: ICCV 2025 VQualA 工作坊 EVQA 轨道
期刊参考: ICCV 2025 研讨会
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 社会与信息网络 (cs.SI)

2025年09月03日, 星期三 (展示 20 之 20 条目 )

[13] arXiv:2509.02232 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 用于3D高斯点云的高效几何压缩与通信
标题: Efficient Geometry Compression and Communication for 3D Gaussian Splatting Point Clouds
Liang Xie, Yanting Li, Luyang Tang, Wei Gao
评论: 8页,5图
期刊参考: ACM 移动通信会议 2025
主题: 多媒体 (cs.MM)
[14] arXiv:2509.01337 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 基于LLM引导的语义关系推理的多模态意图识别
标题: LLM-Guided Semantic Relational Reasoning for Multimodal Intent Recognition
Qianrui Zhou, Hua Xu, Yifan Wang, Xinzhi Dong, Hanlei Zhang
评论: 被EMNLP 2025接收(主会议,长论文)
主题: 多媒体 (cs.MM) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL)
[15] arXiv:2509.00053 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: Traj-MLLM:多模态大语言模型能否重塑轨迹数据挖掘?
标题: Traj-MLLM: Can Multimodal Large Language Models Reform Trajectory Data Mining?
Shuo Liu, Di Yao, Yan Lin, Gao Cong, Jingping Bi
评论: 20页,10图
主题: 多媒体 (cs.MM) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL)
[16] arXiv:2509.02281 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: 平衡多模态学习:单向动态交互视角
标题: Balanced Multimodal Learning: An Unidirectional Dynamic Interaction Perspective
Shijie Wang, Li Zhang, Xinyan Liang, Yuhua Qian, Shen Hu
主题: 机器学习 (cs.LG) ; 多媒体 (cs.MM)
[17] arXiv:2509.02278 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: Think2Sing:驱动三维头部动画的结构化动作字幕协调
标题: Think2Sing: Orchestrating Structured Motion Subtitles for Singing-Driven 3D Head Animation
Zikai Huang, Yihan Zhou, Xuemiao Xu, Cheng Xu, Xiaofen Xing, Jing Qin, Shengfeng He
主题: 图形学 (cs.GR) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[18] arXiv:2509.01626 (交叉列表自 cs.DC) [中文pdf, pdf, html, 其他]
标题: STZ:科学数据的高质量高速流有损压缩框架
标题: STZ: A High Quality and High Speed Streaming Lossy Compression Framework for Scientific Data
Daoce Wang, Pascal Grosset, Jesus Pulido, Jiannan Tian, Tushar M. Athawale, Jinda Jia, Baixi Sun, Boyuan Zhang, Sian Jin, Kai Zhao, James Ahrens, Fengguang Song
评论: 被SC'25接受
主题: 分布式、并行与集群计算 (cs.DC) ; 多媒体 (cs.MM)
[19] arXiv:2509.01588 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 从混乱到和谐:基于分解协和的音频和弦估计训练方法
标题: From Discord to Harmony: Decomposed Consonance-based Training for Improved Audio Chord Estimation
Andrea Poltronieri, Xavier Serra, Martín Rocamora
评论: 9页,3图,3表
期刊参考: 第26届国际音乐信息检索学会会议(ISMIR 2025),2025年9月21日至25日,韩国大田
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[20] arXiv:2509.01442 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]
标题: 量子画笔:一种基于量子计算的数字绘画工具
标题: Quantum Brush: A quantum computing-based tool for digital painting
João S. Ferreira, Arianna Crippa, Astryd Park, Daniel Bultrini, Pierre Fromholz, Roman Lipski, Karl Jansen, James R. Wootton
主题: 图形学 (cs.GR) ; 新兴技术 (cs.ET) ; 多媒体 (cs.MM) ; 物理与社会 (physics.soc-ph) ; 量子物理 (quant-ph)
[21] arXiv:2509.01439 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: SoccerHigh:自动足球视频摘要的基准数据集
标题: SoccerHigh: A Benchmark Dataset for Automatic Soccer Video Summarization
Artur Díaz-Juan, Coloma Ballester, Gloria Haro
评论: 被接受至MMSports 2025(都柏林,爱尔兰)
主题: 计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[22] arXiv:2509.01420 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]
标题: 身体所有权影响虚拟现实中感觉运动 contingencies 的处理
标题: Body Ownership Affects the Processing of Sensorimotor Contingencies in Virtual Reality
Evan G. Center, Matti Pouke, Alessandro Nardi, Lukas Gehrke, Klaus Gramann, Timo Ojala, Steven M. LaValle
评论: 中心博士和鲍克博士对本研究工作做出了同等贡献
主题: 人机交互 (cs.HC) ; 多媒体 (cs.MM)
[23] arXiv:2509.01383 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 通过鲁棒对齐学习增强部分相关视频检索
标题: Enhancing Partially Relevant Video Retrieval with Robust Alignment Learning
Long Zhang, Peipei Song, Jianfeng Dong, Kun Li, Xun Yang
评论: 被EMNLP 2025接收
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[24] arXiv:2509.01362 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 无需训练的提示、图像和引导增强的身份保留文本到视频生成
标题: Identity-Preserving Text-to-Video Generation via Training-Free Prompt, Image, and Guidance Enhancement
Jiayi Gao, Changcheng Hua, Qingchao Chen, Yuxin Peng, Yang Liu
评论: 7页,3图
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[25] arXiv:2509.01214 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: PRINTER:具有原位保真度的变形感知对抗学习用于虚拟IHC染色
标题: PRINTER:Deformation-Aware Adversarial Learning for Virtual IHC Staining with In Situ Fidelity
Yizhe Yuan, Bingsen Xue, Bangzheng Pu, Chengxiang Wang, Cheng Jin
评论: 10页,4图
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[26] arXiv:2509.00723 (交叉列表自 cs.AI) [中文pdf, pdf, html, 其他]
标题: OmniDPO:一种解决全模态幻觉的偏好优化框架
标题: OmniDPO: A Preference Optimization Framework to Address Omni-Modal Hallucination
Junzhe Chen, Tianshu Zhang, Shiyu Huang, Yuwei Niu, Chao Sun, Rongzhou Zhang, Guanyu Zhou, Lijie Wen, Xuming Hu
主题: 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[27] arXiv:2509.00654 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 无名称差距:音乐生成中的策略感知风格控制
标题: The Name-Free Gap: Policy-Aware Stylistic Control in Music Generation
Ashwin Nagarajan, Hao-Wen Dong
评论: 10页,2图
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[28] arXiv:2509.00366 (交叉列表自 cs.MA) [中文pdf, pdf, html, 其他]
标题: KG-RAG:通过知识图驱动的检索增强生成提升GUI代理决策能力
标题: KG-RAG: Enhancing GUI Agent Decision-Making via Knowledge Graph-Driven Retrieval-Augmented Generation
Ziyi Guan, Jason Chun Lok Li, Zhijian Hou, Pingping Zhang, Donglai Xu, Yuzhi Zhao, Mengyang Wu, Jinpeng Chen, Thanh-Toan Nguyen, Pengfei Xian, Wenao Ma, Shengchao Qin, Graziano Chesi, Ngai Wong
评论: 被EMNLP 2025接受
主题: 多智能体系统 (cs.MA) ; 计算与语言 (cs.CL) ; 多媒体 (cs.MM)
[29] arXiv:2509.00132 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: CoComposer:LLM多智能体协作音乐创作
标题: CoComposer: LLM Multi-agent Collaborative Music Composition
Peiwen Xing, Aske Plaat, Niki van Stein
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[30] arXiv:2509.00055 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: U2UData-2:用于长时程任务的可扩展蜂群无人机自主飞行数据集
标题: U2UData-2: A Scalable Swarm UAVs Autonomous Flight Dataset for Long-horizon Tasks
Tongtong Feng, Xin Wang, Feilin Han, Leping Zhang, Wenwu Zhu
主题: 机器人技术 (cs.RO) ; 人工智能 (cs.AI) ; 多智能体系统 (cs.MA) ; 多媒体 (cs.MM)
[31] arXiv:2509.00051 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 音乐生成的评估指标综述
标题: A Survey on Evaluation Metrics for Music Generation
Faria Binte Kader, Santu Karmaker
评论: 19页,2图
主题: 声音 (cs.SD) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[32] arXiv:2509.00029 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 从声音到视觉:迈向人工智能创作的音乐视频
标题: From Sound to Sight: Towards AI-authored Music Videos
Leo Vitasovic, Stella Graßhof, Agnes Mercedes Kloft, Ville V. Lehtola, Martin Cunneen, Justyna Starostka, Glenn McGarry, Kun Li, Sami S. Brandt
评论: 第一届生成式人工智能故事创作研讨会(AISTORY),2025年
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)

2025年09月01日, 星期一 (展示 4 之 4 条目 )

[33] arXiv:2508.21397 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: lifeXplore 在 Lifelog 搜索挑战赛 2020 中
标题: lifeXplore at the Lifelog Search Challenge 2020
Andreas Leibetseder, Klaus Schoeffmann
主题: 多媒体 (cs.MM)
[34] arXiv:2508.21761 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 从沉默和噪声中学习用于视觉声音源定位
标题: Learning from Silence and Noise for Visual Sound Source Localization
Xavier Juanola, Giovana Morais, Magdalena Fuentes, Gloria Haro
评论: 10页,2图,4表 + 补充材料
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[35] arXiv:2508.21399 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 使用深度学习实例分割识别腹腔镜手术器械
标题: Identifying Surgical Instruments in Laparoscopy Using Deep Learning Instance Segmentation
Sabrina Kletz, Klaus Schoeffmann, Jenny Benois-Pineau, Heinrich Husslein
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[36] arXiv:2508.21398 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: GLENDA:妇科腹腔镜子宫内膜异位症数据集
标题: GLENDA: Gynecologic Laparoscopy Endometriosis Dataset
Andreas Leibetseder, Sabrina Kletz, Klaus Schoeffmann, Simon Keckstein, Jörg Keckstein
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)

2025年08月29日, 星期五 (展示 13 之 13 条目 )

[37] arXiv:2508.20741 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: AdaDPCC:动态点云压缩的自适应速率控制和速率失真复杂度优化
标题: AdaDPCC: Adaptive Rate Control and Rate-Distortion-Complexity Optimization for Dynamic Point Cloud Compression
Chenhao Zhang, Wei Gao
主题: 多媒体 (cs.MM)
[38] arXiv:2508.20687 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: diveXplore 6.0:ITEC 在 VBS 2022 上的交互式视频探索系统
标题: diveXplore 6.0: ITEC's Interactive Video Exploration System at VBS 2022
Andreas Leibetseder, Klaus Schoeffmann
主题: 多媒体 (cs.MM)
[39] arXiv:2508.20569 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: 少即是多 - diveXplore 5.0 在 VBS 2021
标题: Less is More - diveXplore 5.0 at VBS 2021
Andreas Leibetseder, Klaus Schoeffmann
主题: 多媒体 (cs.MM)
[40] arXiv:2508.20560 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: diveXplore 在 Video Browser Showdown 2024 中
标题: diveXplore at the Video Browser Showdown 2024
Klaus Schoeffmann, Sahar Nasirihaghighi
主题: 多媒体 (cs.MM)
[41] arXiv:2508.20546 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]
标题: MM-HSD:视频中的多模态仇恨言论检测
标题: MM-HSD: Multi-Modal Hate Speech Detection in Videos
Berta Céspedes-Sarrias, Carlos Collado-Capell, Pablo Rodenas-Ruiz, Olena Hrynenko, Andrea Cavallaro
评论: 被ACM多媒体2025接收
主题: 多媒体 (cs.MM) ; 人工智能 (cs.AI)
[42] arXiv:2508.21052 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: FakeParts:一种新的AI生成的深度伪造技术
标题: FakeParts: a New Family of AI-Generated DeepFakes
Gaetan Brison, Soobash Daiboo, Samy Aimeur, Awais Hussain Sani, Xi Wang, Gianni Franchi, Vicky Kalogeiton
主题: 计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[43] arXiv:2508.20840 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]
标题: 学习基本的具身世界模型:迈向可扩展的机器人学习
标题: Learning Primitive Embodied World Models: Towards Scalable Robotic Learning
Qiao Sun, Liujia Yang, Wei Tang, Wei Huang, Kaixin Xu, Yongchao Chen, Mingyu Liu, Jiange Yang, Haoyi Zhu, Yating Wang, Tong He, Yilun Chen, Xili Dai, Nanyang Ye, Qinying Gu
主题: 机器人技术 (cs.RO) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[44] arXiv:2508.20670 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: “幽默、艺术还是虚假信息?”: 一种用于意图感知的合成图像检测的多模态数据集
标题: "Humor, Art, or Misinformation?": A Multimodal Dataset for Intent-Aware Synthetic Image Detection
Anastasios Skoularikis, Stefanos-Iordanis Papadopoulos, Symeon Papadopoulos, Panagiotis C. Petrantonakis
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[45] arXiv:2508.20665 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 阿马迪乌斯:具有双向属性建模的自回归符号音乐模型
标题: Amadeus: Autoregressive Model with Bidirectional Attribute Modelling for Symbolic Music
Hongju Su, Ke Li, Lan Yang, Honggang Zhang, Yi-Zhe Song
评论: 正在审核中
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[46] arXiv:2508.20513 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: MoTAS:从TTS增强语音中基于Moe的特征选择用于增强的多模态阿尔茨海默病早期筛查
标题: MoTAS: MoE-Guided Feature Selection from TTS-Augmented Speech for Enhanced Multimodal Alzheimer's Early Screening
Yongqi Shao, Binxin Mei, Cong Tan, Hong Huo, Tao Fang
主题: 声音 (cs.SD) ; 多媒体 (cs.MM)
[47] arXiv:2508.20476 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 面向包容性交流:一种统一的基于大语言模型的手语、唇部运动和音频理解框架
标题: Towards Inclusive Communication: A Unified LLM-Based Framework for Sign Language, Lip Movements, and Audio Understanding
Jeong Hun Yeo, Hyeongseop Rha, Sungjune Park, Junil Won, Yong Man Ro
评论: 代码可在以下地址获得:https://github.com/JeongHun0716/UniSLA
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS) ; 图像与视频处理 (eess.IV)
[48] arXiv:2508.20250 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]
标题: 基于iPhone 15 Pro Max LiDAR的2D视频流高效隐私保护背景去除
标题: Efficient and Privacy-Protecting Background Removal for 2D Video Streaming using iPhone 15 Pro Max LiDAR
Jessica Kinnevan, Naifa Alqahtani, Toral Chauhan
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[49] arXiv:2508.20181 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 通过对象感知偏好优化减轻多模态大语言模型中的幻觉
标题: Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization
Alberto Compagnoni, Davide Caffagni, Nicholas Moratelli, Lorenzo Baraldi, Marcella Cornia, Rita Cucchiara
评论: BMVC 2025
主题: 计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 多媒体 (cs.MM)
总共 49 条目
显示最多 50 每页条目: 较少 | 更多 | 所有
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号