多媒体

最近提交的作者和标题

查看今天的新的变化

总共 49 条目

显示最多 50 每页条目：较少 | 更多 | 所有

[1] arXiv:2509.04448 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题： TRUST-VL：一种用于通用多模态虚假信息检测的可解释新闻助手

标题： TRUST-VL: An Explainable News Assistant for General Multimodal Misinformation Detection

Zehong Yan, Peng Qi, Wynne Hsu, Mong Li Lee

评论： EMNLP 2025；项目主页：https://yanzehong.github.io/trust-vl/

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[2] arXiv:2509.04215 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： PianoBind：流行钢琴音乐的多模态联合嵌入模型

标题： PianoBind: A Multimodal Joint Embedding Model for Pop-piano Music

Hayeon Bang, Eunjin Choi, Seungheon Doh, Juhan Nam

评论：已接受发表于第26届国际音乐信息检索学会会议（ISMIR 2025）

主题：声音 (cs.SD) ; 信息检索 (cs.IR) ; 多媒体 (cs.MM)
[3] arXiv:2509.04086 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题： TEn-CATS：具有多尺度类别感知时间图的文本增强音视频视频解析

标题： TEn-CATS: Text-Enriched Audio-Visual Video Parsing with Multi-Scale Category-Aware Temporal Graph

Yaru Chen, Faegheh Sardari, Peiliang Zhang, Ruohao Guo, Yang Xiang, Zhenbo Li, Wenwu Wang

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[4] arXiv:2509.03883 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：人体动作视频生成：综述

标题： Human Motion Video Generation: A Survey

Haiwei Xue, Xiangyang Luo, Zhanghao Hu, Xin Zhang, Xunzhi Xiang, Yuqin Dai, Jianzhuang Liu, Zhensong Zhang, Minglei Li, Jian Yang, Fei Ma, Zhiyong Wu, Changpeng Yang, Zonghong Dai, Fei Richard Yu

评论：已被TPAMI接受。Github仓库：https://github.com/Winn1y/Awesome-Human-Motion-Video-Generation IEEE Access：https://ieeexplore.ieee.org/document/11106267

期刊参考： IEEE模式分析与机器智能汇刊 2025

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[5] arXiv:2509.03693 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]: 标题：设计有效的虚假信息检测人工智能解释：内容、社交和综合解释的比较研究

标题： Designing Effective AI Explanations for Misinformation Detection: A Comparative Study of Content, Social, and Combined Explanations

Yeaeun Gong, Yifan Liu, Lanyu Shang, Na Wei, Dong Wang

评论：将出现在CSCW 2025上

主题：人机交互 (cs.HC) ; 多媒体 (cs.MM)
[6] arXiv:2509.03692 (交叉列表自 cs.IR) [中文pdf, pdf, html, 其他]: 标题： lifeXplore 在 Lifelog 搜索挑战赛 2021 中

标题： lifeXplore at the Lifelog Search Challenge 2021

Andreas Leibetseder, Klaus Schoeffmann

主题：信息检索 (cs.IR) ; 多媒体 (cs.MM)
[7] arXiv:2509.03678 (交叉列表自 cs.HC) [中文pdf, pdf, 其他]: 标题：应许之地：一个整合全景画到虚拟工作流程和元素叙事的扩展现实叙述性景点

标题： Promisedland: An XR Narrative Attraction Integrating Diorama-to-Virtual Workflow and Elemental Storytelling

Xianghan Wang, Chingshuan Hsiao, Shimei Qiu

评论：被接收至2025年第11届国际虚拟现实会议（ICVR 2025）论文集。ISBN：979-8-3503-9272-2。© 2025 IEEE。这是作者接受的稿件。最终版本将通过IEEE Xplore提供。

主题：人机交互 (cs.HC) ; 多媒体 (cs.MM)
[8] arXiv:2509.03565 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题： ResearchPulse：通过多文档科学推理构建方法-实验链

标题： ResearchPulse: Building Method-Experiment Chains through Multi-Document Scientific Inference

Qi Chen, Jingxuan Wei, Zhuoya Yao, Haiguang Wang, Gaowei Wu, Bihui Yu, Siyuan Li, Cheng Tan

评论：被ACM MM 2025接收

主题：计算与语言 (cs.CL) ; 多媒体 (cs.MM)

[9] arXiv:2509.02990 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：自动生成高精度的交通场景模拟道路网络

标题： Automatically Generating High-Precision Simulated Road Networking in Traffic Scenario

Liang Xie, Wenke Huang

评论： 7页，11图

期刊参考： ACM MobiCom 2025

主题：多媒体 (cs.MM)
[10] arXiv:2509.02924 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：自然仿像：基于代理的模拟和脑类器官集体智能生成的生态系统

标题： Simulacra Naturae: Generative Ecosystem driven by Agent-Based Simulations and Brain Organoid Collective Intelligence

Nefeli Manoudaki, Mert Toka, Iason Paterakis, Diarmid Flatley

评论：将发表于IEEE VISAP 2025

主题：多媒体 (cs.MM) ; 人工智能 (cs.AI) ; 人机交互 (cs.HC)
[11] arXiv:2509.03409 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：多级SSL特征门控用于音频深度伪造检测

标题： Multi-level SSL Feature Gating for Audio Deepfake Detection

Hoan My Tran, Damien Lolive, Aghilas Sini, Arnaud Delhay, Pierre-François Marteau, David Guennec

评论：这篇论文已被ACM MM 2025接收

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[12] arXiv:2509.02969 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题： VQualA 2025 短视频参与度预测挑战赛：方法与结果

标题： VQualA 2025 Challenge on Engagement Prediction for Short Videos: Methods and Results

Dasong Li, Sizhuo Ma, Hang Hua, Wenjie Li, Jian Wang, Chris Wei Zhou, Fengbin Guan, Xin Li, Zihao Yu, Yiting Lu, Ru-Ling Liao, Yan Ye, Zhibo Chen, Wei Sun, Linhan Cao, Yuqin Cao, Weixia Zhang, Wen Wen, Kaiwei Zhang, Zijian Chen, Fangfang Lu, Xiongkuo Min, Guangtao Zhai, Erjia Xiao, Lingfeng Zhang, Zhenjie Su, Hao Cheng, Yu Liu, Renjing Xu, Long Chen, Xiaoshuai Hao, Zhenpeng Zeng, Jianqin Wu, Xuxu Wang, Qian Yu, Bo Hu, Weiwei Wang, Pinxin Liu, Yunlong Tang, Luchuan Song, Jinxi He, Jiaru Wu, Hanjia Lyu

评论： ICCV 2025 VQualA 工作坊 EVQA 轨道

期刊参考： ICCV 2025 研讨会

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 社会与信息网络 (cs.SI)

[13] arXiv:2509.02232 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：用于3D高斯点云的高效几何压缩与通信

标题： Efficient Geometry Compression and Communication for 3D Gaussian Splatting Point Clouds

Liang Xie, Yanting Li, Luyang Tang, Wei Gao

评论： 8页，5图

期刊参考： ACM 移动通信会议 2025

主题：多媒体 (cs.MM)
[14] arXiv:2509.01337 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：基于LLM引导的语义关系推理的多模态意图识别

标题： LLM-Guided Semantic Relational Reasoning for Multimodal Intent Recognition

Qianrui Zhou, Hua Xu, Yifan Wang, Xinzhi Dong, Hanlei Zhang

评论：被EMNLP 2025接收（主会议，长论文）

主题：多媒体 (cs.MM) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL)
[15] arXiv:2509.00053 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： Traj-MLLM：多模态大语言模型能否重塑轨迹数据挖掘？

标题： Traj-MLLM: Can Multimodal Large Language Models Reform Trajectory Data Mining?

Shuo Liu, Di Yao, Yan Lin, Gao Cong, Jingping Bi

评论： 20页，10图

主题：多媒体 (cs.MM) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL)
[16] arXiv:2509.02281 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]: 标题：平衡多模态学习：单向动态交互视角

标题： Balanced Multimodal Learning: An Unidirectional Dynamic Interaction Perspective

Shijie Wang, Li Zhang, Xinyan Liang, Yuhua Qian, Shen Hu

主题：机器学习 (cs.LG) ; 多媒体 (cs.MM)
[17] arXiv:2509.02278 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]: 标题： Think2Sing：驱动三维头部动画的结构化动作字幕协调

标题： Think2Sing: Orchestrating Structured Motion Subtitles for Singing-Driven 3D Head Animation

Zikai Huang, Yihan Zhou, Xuemiao Xu, Cheng Xu, Xiaofen Xing, Jing Qin, Shengfeng He

主题：图形学 (cs.GR) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[18] arXiv:2509.01626 (交叉列表自 cs.DC) [中文pdf, pdf, html, 其他]: 标题： STZ：科学数据的高质量高速流有损压缩框架

标题： STZ: A High Quality and High Speed Streaming Lossy Compression Framework for Scientific Data

Daoce Wang, Pascal Grosset, Jesus Pulido, Jiannan Tian, Tushar M. Athawale, Jinda Jia, Baixi Sun, Boyuan Zhang, Sian Jin, Kai Zhao, James Ahrens, Fengguang Song

评论：被SC'25接受

主题：分布式、并行与集群计算 (cs.DC) ; 多媒体 (cs.MM)
[19] arXiv:2509.01588 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：从混乱到和谐：基于分解协和的音频和弦估计训练方法

标题： From Discord to Harmony: Decomposed Consonance-based Training for Improved Audio Chord Estimation

Andrea Poltronieri, Xavier Serra, Martín Rocamora

评论： 9页，3图，3表

期刊参考：第26届国际音乐信息检索学会会议（ISMIR 2025），2025年9月21日至25日，韩国大田

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[20] arXiv:2509.01442 (交叉列表自 cs.GR) [中文pdf, pdf, html, 其他]: 标题：量子画笔：一种基于量子计算的数字绘画工具

标题： Quantum Brush: A quantum computing-based tool for digital painting

João S. Ferreira, Arianna Crippa, Astryd Park, Daniel Bultrini, Pierre Fromholz, Roman Lipski, Karl Jansen, James R. Wootton

主题：图形学 (cs.GR) ; 新兴技术 (cs.ET) ; 多媒体 (cs.MM) ; 物理与社会 (physics.soc-ph) ; 量子物理 (quant-ph)
[21] arXiv:2509.01439 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题： SoccerHigh：自动足球视频摘要的基准数据集

标题： SoccerHigh: A Benchmark Dataset for Automatic Soccer Video Summarization

Artur Díaz-Juan, Coloma Ballester, Gloria Haro

评论：被接受至MMSports 2025（都柏林，爱尔兰）

主题：计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[22] arXiv:2509.01420 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]: 标题：身体所有权影响虚拟现实中感觉运动 contingencies 的处理

标题： Body Ownership Affects the Processing of Sensorimotor Contingencies in Virtual Reality

Evan G. Center, Matti Pouke, Alessandro Nardi, Lukas Gehrke, Klaus Gramann, Timo Ojala, Steven M. LaValle

评论：中心博士和鲍克博士对本研究工作做出了同等贡献

主题：人机交互 (cs.HC) ; 多媒体 (cs.MM)
[23] arXiv:2509.01383 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：通过鲁棒对齐学习增强部分相关视频检索

标题： Enhancing Partially Relevant Video Retrieval with Robust Alignment Learning

Long Zhang, Peipei Song, Jianfeng Dong, Kun Li, Xun Yang

评论：被EMNLP 2025接收

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[24] arXiv:2509.01362 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：无需训练的提示、图像和引导增强的身份保留文本到视频生成

标题： Identity-Preserving Text-to-Video Generation via Training-Free Prompt, Image, and Guidance Enhancement

Jiayi Gao, Changcheng Hua, Qingchao Chen, Yuxin Peng, Yang Liu

评论： 7页，3图

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[25] arXiv:2509.01214 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题： PRINTER：具有原位保真度的变形感知对抗学习用于虚拟IHC染色

标题： PRINTER:Deformation-Aware Adversarial Learning for Virtual IHC Staining with In Situ Fidelity

Yizhe Yuan, Bingsen Xue, Bangzheng Pu, Chengxiang Wang, Cheng Jin

评论： 10页，4图

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[26] arXiv:2509.00723 (交叉列表自 cs.AI) [中文pdf, pdf, html, 其他]: 标题： OmniDPO：一种解决全模态幻觉的偏好优化框架

标题： OmniDPO: A Preference Optimization Framework to Address Omni-Modal Hallucination

Junzhe Chen, Tianshu Zhang, Shiyu Huang, Yuwei Niu, Chao Sun, Rongzhou Zhang, Guanyu Zhou, Lijie Wen, Xuming Hu

主题：人工智能 (cs.AI) ; 多媒体 (cs.MM)
[27] arXiv:2509.00654 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：无名称差距：音乐生成中的策略感知风格控制

标题： The Name-Free Gap: Policy-Aware Stylistic Control in Music Generation

Ashwin Nagarajan, Hao-Wen Dong

评论： 10页，2图

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[28] arXiv:2509.00366 (交叉列表自 cs.MA) [中文pdf, pdf, html, 其他]: 标题： KG-RAG：通过知识图驱动的检索增强生成提升GUI代理决策能力

标题： KG-RAG: Enhancing GUI Agent Decision-Making via Knowledge Graph-Driven Retrieval-Augmented Generation

Ziyi Guan, Jason Chun Lok Li, Zhijian Hou, Pingping Zhang, Donglai Xu, Yuzhi Zhao, Mengyang Wu, Jinpeng Chen, Thanh-Toan Nguyen, Pengfei Xian, Wenao Ma, Shengchao Qin, Graziano Chesi, Ngai Wong

评论：被EMNLP 2025接受

主题：多智能体系统 (cs.MA) ; 计算与语言 (cs.CL) ; 多媒体 (cs.MM)
[29] arXiv:2509.00132 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： CoComposer：LLM多智能体协作音乐创作

标题： CoComposer: LLM Multi-agent Collaborative Music Composition

Peiwen Xing, Aske Plaat, Niki van Stein

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[30] arXiv:2509.00055 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]: 标题： U2UData-2：用于长时程任务的可扩展蜂群无人机自主飞行数据集

标题： U2UData-2: A Scalable Swarm UAVs Autonomous Flight Dataset for Long-horizon Tasks

Tongtong Feng, Xin Wang, Feilin Han, Leping Zhang, Wenwu Zhu

主题：机器人技术 (cs.RO) ; 人工智能 (cs.AI) ; 多智能体系统 (cs.MA) ; 多媒体 (cs.MM)
[31] arXiv:2509.00051 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：音乐生成的评估指标综述

标题： A Survey on Evaluation Metrics for Music Generation

Faria Binte Kader, Santu Karmaker

评论： 19页，2图

主题：声音 (cs.SD) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[32] arXiv:2509.00029 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：从声音到视觉：迈向人工智能创作的音乐视频

标题： From Sound to Sight: Towards AI-authored Music Videos

Leo Vitasovic, Stella Graßhof, Agnes Mercedes Kloft, Ville V. Lehtola, Martin Cunneen, Justyna Starostka, Glenn McGarry, Kun Li, Sami S. Brandt

评论：第一届生成式人工智能故事创作研讨会（AISTORY），2025年

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)

[33] arXiv:2508.21397 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： lifeXplore 在 Lifelog 搜索挑战赛 2020 中

标题： lifeXplore at the Lifelog Search Challenge 2020

Andreas Leibetseder, Klaus Schoeffmann

主题：多媒体 (cs.MM)
[34] arXiv:2508.21761 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：从沉默和噪声中学习用于视觉声音源定位

标题： Learning from Silence and Noise for Visual Sound Source Localization

Xavier Juanola, Giovana Morais, Magdalena Fuentes, Gloria Haro

评论： 10页，2图，4表 + 补充材料

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[35] arXiv:2508.21399 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：使用深度学习实例分割识别腹腔镜手术器械

标题： Identifying Surgical Instruments in Laparoscopy Using Deep Learning Instance Segmentation

Sabrina Kletz, Klaus Schoeffmann, Jenny Benois-Pineau, Heinrich Husslein

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[36] arXiv:2508.21398 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题： GLENDA：妇科腹腔镜子宫内膜异位症数据集

标题： GLENDA: Gynecologic Laparoscopy Endometriosis Dataset

Andreas Leibetseder, Sabrina Kletz, Klaus Schoeffmann, Simon Keckstein, Jörg Keckstein

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)

[37] arXiv:2508.20741 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： AdaDPCC：动态点云压缩的自适应速率控制和速率失真复杂度优化

标题： AdaDPCC: Adaptive Rate Control and Rate-Distortion-Complexity Optimization for Dynamic Point Cloud Compression

Chenhao Zhang, Wei Gao

主题：多媒体 (cs.MM)
[38] arXiv:2508.20687 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： diveXplore 6.0：ITEC 在 VBS 2022 上的交互式视频探索系统

标题： diveXplore 6.0: ITEC's Interactive Video Exploration System at VBS 2022

Andreas Leibetseder, Klaus Schoeffmann

主题：多媒体 (cs.MM)
[39] arXiv:2508.20569 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题：少即是多 - diveXplore 5.0 在 VBS 2021

标题： Less is More - diveXplore 5.0 at VBS 2021

Andreas Leibetseder, Klaus Schoeffmann

主题：多媒体 (cs.MM)
[40] arXiv:2508.20560 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： diveXplore 在 Video Browser Showdown 2024 中

标题： diveXplore at the Video Browser Showdown 2024

Klaus Schoeffmann, Sahar Nasirihaghighi

主题：多媒体 (cs.MM)
[41] arXiv:2508.20546 (交叉列表自 cs.MM) [中文pdf, pdf, html, 其他]: 标题： MM-HSD：视频中的多模态仇恨言论检测

标题： MM-HSD: Multi-Modal Hate Speech Detection in Videos

Berta Céspedes-Sarrias, Carlos Collado-Capell, Pablo Rodenas-Ruiz, Olena Hrynenko, Andrea Cavallaro

评论：被ACM多媒体2025接收

主题：多媒体 (cs.MM) ; 人工智能 (cs.AI)
[42] arXiv:2508.21052 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题： FakeParts：一种新的AI生成的深度伪造技术

标题： FakeParts: a New Family of AI-Generated DeepFakes

Gaetan Brison, Soobash Daiboo, Samy Aimeur, Awais Hussain Sani, Xi Wang, Gianni Franchi, Vicky Kalogeiton

主题：计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[43] arXiv:2508.20840 (交叉列表自 cs.RO) [中文pdf, pdf, html, 其他]: 标题：学习基本的具身世界模型：迈向可扩展的机器人学习

标题： Learning Primitive Embodied World Models: Towards Scalable Robotic Learning

Qiao Sun, Liujia Yang, Wei Tang, Wei Huang, Kaixin Xu, Yongchao Chen, Mingyu Liu, Jiange Yang, Haoyi Zhu, Yating Wang, Tong He, Yilun Chen, Xili Dai, Nanyang Ye, Qinying Gu

主题：机器人技术 (cs.RO) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[44] arXiv:2508.20670 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题： “幽默、艺术还是虚假信息？”: 一种用于意图感知的合成图像检测的多模态数据集

标题： "Humor, Art, or Misinformation?": A Multimodal Dataset for Intent-Aware Synthetic Image Detection

Anastasios Skoularikis, Stefanos-Iordanis Papadopoulos, Symeon Papadopoulos, Panagiotis C. Petrantonakis

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[45] arXiv:2508.20665 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：阿马迪乌斯：具有双向属性建模的自回归符号音乐模型

标题： Amadeus: Autoregressive Model with Bidirectional Attribute Modelling for Symbolic Music

Hongju Su, Ke Li, Lan Yang, Honggang Zhang, Yi-Zhe Song

评论：正在审核中

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[46] arXiv:2508.20513 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： MoTAS：从TTS增强语音中基于Moe的特征选择用于增强的多模态阿尔茨海默病早期筛查

标题： MoTAS: MoE-Guided Feature Selection from TTS-Augmented Speech for Enhanced Multimodal Alzheimer's Early Screening

Yongqi Shao, Binxin Mei, Cong Tan, Hong Huo, Tao Fang

主题：声音 (cs.SD) ; 多媒体 (cs.MM)
[47] arXiv:2508.20476 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：面向包容性交流：一种统一的基于大语言模型的手语、唇部运动和音频理解框架

标题： Towards Inclusive Communication: A Unified LLM-Based Framework for Sign Language, Lip Movements, and Audio Understanding

Jeong Hun Yeo, Hyeongseop Rha, Sungjune Park, Junil Won, Yong Man Ro

评论：代码可在以下地址获得：https://github.com/JeongHun0716/UniSLA

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS) ; 图像与视频处理 (eess.IV)
[48] arXiv:2508.20250 (交叉列表自 eess.IV) [中文pdf, pdf, html, 其他]: 标题：基于iPhone 15 Pro Max LiDAR的2D视频流高效隐私保护背景去除

标题： Efficient and Privacy-Protecting Background Removal for 2D Video Streaming using iPhone 15 Pro Max LiDAR

Jessica Kinnevan, Naifa Alqahtani, Toral Chauhan

主题：图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
[49] arXiv:2508.20181 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：通过对象感知偏好优化减轻多模态大语言模型中的幻觉

标题： Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization

Alberto Compagnoni, Davide Caffagni, Nicholas Moratelli, Lorenzo Baraldi, Marcella Cornia, Rita Cucchiara

评论： BMVC 2025

主题：计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 多媒体 (cs.MM)

总共 49 条目

显示最多 50 每页条目：较少 | 更多 | 所有

多媒体

最近提交的作者和标题

2025年09月05日，星期五 (展示 8 之 8 条目 )

2025年09月04日，星期四 (展示 4 之 4 条目 )

2025年09月03日，星期三 (展示 20 之 20 条目 )

2025年09月01日，星期一 (展示 4 之 4 条目 )

2025年08月29日，星期五 (展示 13 之 13 条目 )

多媒体

最近提交的作者和标题

2025年09月05日， 星期五 (展示 8 之 8 条目 )

2025年09月04日， 星期四 (展示 4 之 4 条目 )

2025年09月03日， 星期三 (展示 20 之 20 条目 )

2025年09月01日， 星期一 (展示 4 之 4 条目 )

2025年08月29日， 星期五 (展示 13 之 13 条目 )

2025年09月05日，星期五 (展示 8 之 8 条目 )

2025年09月04日，星期四 (展示 4 之 4 条目 )

2025年09月03日，星期三 (展示 20 之 20 条目 )

2025年09月01日，星期一 (展示 4 之 4 条目 )

2025年08月29日，星期五 (展示 13 之 13 条目 )