音频与语音处理

最近提交的作者和标题

查看今天的新的变化

总共 91 条目 : 1-50 51-91

显示最多 50 每页条目：较少 | 更多 | 所有

[1] arXiv:2509.05205 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题： MEAN-RIR：用于鲁棒房间脉冲响应估计的多模态环境感知网络

标题： MEAN-RIR: Multi-Modal Environment-Aware Network for Robust Room Impulse Response Estimation

Jiajian Chen, Jiakang Chen, Hang Chen, Qing Wang, Yu Gao, Jun Du

评论：被ASRU 2025接受

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[2] arXiv:2509.05175 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：房间声学仿真作为音频算法评估的测量替代方法

标题： Room-acoustic simulations as an alternative to measurements for audio-algorithm evaluation

Georg Götz, Daniel Gert Nielsen, Steinar Guðjónsson, Finnur Pind

主题：音频与语音处理 (eess.AS) ; 机器学习 (cs.LG)
[3] arXiv:2509.05079 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：移动设备上的全频段语音降噪轻量级DNN：利用长短期时间模式

标题： Lightweight DNN for Full-Band Speech Denoising on Mobile Devices: Exploiting Long and Short Temporal Patterns

Konstantinos Drossos, Mikko Heikkinen, Paschalis Tsiaflakis

评论：已接受发表于2025年IEEE第27届多媒体信号处理国际研讨会（MMSP）论文集

主题：音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 信号处理 (eess.SP)
[4] arXiv:2509.04830 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：逐层分析多语言合成语音的质量

标题： Layer-wise Analysis for Quality of Multilingual Synthesized Speech

Erica Cooper, Takuma Okamoto, Yamato Ohtani, Tomoki Toda, Hisashi Kawai

评论：版权所有 2025 IEEE。个人使用此材料是允许的。对于所有其他用途，必须从 IEEE 获得许可，包括在任何当前或未来媒体中转载/重新发布此材料用于广告或促销目的，创作新的集体作品，出售或重新分发到服务器或列表，或在其他作品中重复使用本作品的任何受版权保护的部分。

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[5] arXiv:2509.04685 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：通过自适应聚类和隐式持续时间编码实现可变帧率语音标记化：以更少表达更多

标题： Say More with Less: Variable-Frame-Rate Speech Tokenization via Adaptive Clustering and Implicit Duration Coding

Rui-Chen Zheng, Wenrui Liu, Hui-Peng Du, Qinglin Zhang, Chong Deng, Qian Chen, Wen Wang, Yang Ai, Zhen-Hua Ling

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[6] arXiv:2509.04667 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题： DarkStream：低延迟的实时语音匿名化

标题： DarkStream: real-time speech anonymization with low latency

Waris Quamer, Ricardo Gutierrez-Osuna

评论：被接受在ASRU 2025上展示

主题：音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG)
[7] arXiv:2509.04629 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：时间延迟插值在改进声学反射器定位中的应用

标题： On Time Delay Interpolation for Improved Acoustic Reflector Localization

Hannes Rosseel, Toon van Waterschoot

评论： 20页，13图，2表，提交至《声学学会杂志》

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[8] arXiv:2509.05256 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： Recomposer：事件滚动引导的生成音频编辑

标题： Recomposer: Event-roll-guided generative audio editing

Daniel P. W. Ellis, Eduardo Fonseca, Ron J. Weiss, Kevin Wilson, Scott Wisdom, Hakan Erdogan, John R. Hershey, Aren Jansen, R. Channing Moore, Manoj Plakal

评论： 5页，5图

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[9] arXiv:2509.05145 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]: 标题：通过变分交叉检查探索节奏生成系统的局部稳定性

标题： Exploring Situated Stabilities of a Rhythm Generation System through Variational Cross-Examination

Błażej Kotowski, Nicholas Evans, Behzad Haki, Frederic Font, Sergi Jordà

评论： AI音乐创造力2025

主题：人机交互 (cs.HC) ; 人工智能 (cs.AI) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[10] arXiv:2509.04985 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：为评估音乐对抗攻击中的听觉相似性的感知模型训练

标题： Training a Perceptual Model for Evaluating Auditory Similarity in Music Adversarial Attack

Yuxuan Liu, Rui Sang, Peihong Zhang, Zhixin Li, Shengchen Li

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[11] arXiv:2509.04980 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： MAIA：一种基于修复的音乐对抗攻击方法

标题： MAIA: An Inpainting-Based Approach for Music Adversarial Attacks

Yuxuan Liu, Peihong Zhang, Rui Sang, Zhixin Li, Shengchen Li

评论：被ISMIR2025接受

主题：声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[12] arXiv:2509.04957 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：通过多个基础模型映射器的高效视频到音频生成

标题： Efficient Video-to-Audio Generation via Multiple Foundation Models Mapper

Gehui Chen, Guan'an Wang, Xiaowen Huang, Jitao Sang

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[13] arXiv:2509.04899 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：使用受限玻尔兹曼机学习和创作古典音乐

标题： Learning and composing of classical music using restricted Boltzmann machines

Mutsumi Kobayashi, Hiroshi Watanabe

评论： 19页，10图

主题：声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[14] arXiv:2509.04851 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：基于量子傅里叶变换的去噪：用于增强语音清晰度的酉滤波

标题： Quantum Fourier Transform Based Denoising: Unitary Filtering for Enhanced Speech Clarity

Rajeshwar Tripathi, Sahil Tomar, Sandeep Kumar, Monika Aggarwal

评论： 8页

主题：声音 (cs.SD) ; 新兴技术 (cs.ET) ; 音频与语音处理 (eess.AS)
[15] arXiv:2509.04744 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： WildScore：在真实场景中的符号音乐推理基准测试

标题： WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning

Gagan Mundada, Yash Vishe, Amit Namburi, Xin Xu, Zachary Novack, Julian McAuley, Junda Wu

主题：声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[16] arXiv:2509.04715 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：多类声学数据集和交互式工具用于在现实环境中分析无人机特征

标题： A Multiclass Acoustic Dataset and Interactive Tool for Analyzing Drone Signatures in Real-World Environments

Mia Y. Wang, Mackenzie Linn, Andrew P. Berg, Qian Zhang

评论：本文扩展了我们在2024年人工智能与人文、教育和艺术（2024 AIxHeart）会议上发表的先前工作

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[17] arXiv:2509.04682 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：生态有效基准测试与自适应注意：可扩展的海洋生物声学监测

标题： Ecologically Valid Benchmarking and Adaptive Attention: Scalable Marine Bioacoustic Monitoring

Nicholas R. Rasmussen, Rodrigue Rizk, Longwei Wang, KC Santosh

评论：正在作为匿名投稿提交至IEEETAI - 我们允许进行存档投稿。最终格式尚未确定。

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 信息检索 (cs.IR) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[18] arXiv:2509.04488 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题：基于大型语言模型的多说话人语音识别的序列化输出提示

标题： Serialized Output Prompting for Large Language Model-based Multi-Talker Speech Recognition

Hao Shi, Yusuke Fujita, Tomoya Mizumoto, Lianbo Liu, Atsushi Kojima, Yui Sudo

主题：计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)

[19] arXiv:2509.04390 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：使用图形硬件加速高度混响空间的交互式听觉化

标题： Accelerated Interactive Auralization of Highly Reverberant Spaces using Graphics Hardware

Hannes Rosseel, Toon van Waterschoot

评论： 8页，6图，提交至《音频工程协会杂志》

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[20] arXiv:2509.04280 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]: 标题：通过域不变嵌入变换的语音增强测试时适应

标题： Test-Time Adaptation for Speech Enhancement via Domain Invariant Embedding Transformation

Tobias Raichle, Niels Edinger, Bin Yang

评论：此工作已提交给IEEE以可能发表

主题：音频与语音处理 (eess.AS)
[21] arXiv:2509.04072 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题： LibriQuote：用于情感零样本语音合成的虚构角色对话语音数据集

标题： LibriQuote: A Speech Dataset of Fictional Character Utterances for Expressive Zero-Shot Speech Synthesis

Gaspard Michel, Elena V. Epure, Christophe Cerisara

主题：音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL) ; 声音 (cs.SD)
[22] arXiv:2509.03902 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：基于球形和线性麦克风阵列的分层稀疏声场重建

标题： Hierarchical Sparse Sound Field Reconstruction with Spherical and Linear Microphone Arrays

Shunxi Xu, Craig T. Jin

评论：被APSIPA ASC 2025接受

主题：音频与语音处理 (eess.AS)
[23] arXiv:2509.03913 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： SwinSRGAN：基于Swin变换器的生成对抗网络用于高保真语音超分辨率

标题： SwinSRGAN: Swin Transformer-based Generative Adversarial Network for High-Fidelity Speech Super-Resolution

Jiajun Yuan, Xiaochen Wang, Yuhang Xiao, Yulin Wu, Chenhao Hu, Xueyang Lv

评论： 5页

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[24] arXiv:2509.03529 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题：基于人工智能的工具以提高信息交叉评估的多模态建议

标题： Multimodal Proposal for an AI-Based Tool to Increase Cross-Assessment of Messages

Alejandro Álvarez Castro, Joaquín Ordieres-Meré

评论：发表于NLMLT2025（https://airccse.org/csit/V15N16.html），15页，5图

主题：计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[25] arXiv:2509.03526 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题：通过强化行为对齐增强语音大语言模型

标题： Enhancing Speech Large Language Models through Reinforced Behavior Alignment

Yansong Liu, Jiateng Li, Yuan Liu

主题：计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[26] arXiv:2509.03525 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]: 标题：基于语音的认知筛查：LLM适应策略的系统评估

标题： Speech-Based Cognitive Screening: A Systematic Evaluation of LLM Adaptation Strategies

Fatemeh Taherinezhad, Mohamad Javad Momeni Nezhad, Sepehr Karimi, Sina Rashidi, Ali Zolnour, Maryam Dadkhah, Yasaman Haghbin, Hossein AzadMaleki, Maryam Zolnoori

主题：计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)

[27] arXiv:2509.03372 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：一种对自动口语评估中的评分序数和非均匀区间进行建模的有效策略

标题： An Effective Strategy for Modeling Score Ordinality and Non-uniform Intervals in Automated Speaking Assessment

Tien-Hong Lo, Szu-Yu Chen, Yao-Ting Sung, Berlin Chen

评论：被ASRU 2025接收

主题：音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[28] arXiv:2509.03292 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：通过三元组损失和自监督嵌入改进感知音频美学评估

标题： Improving Perceptual Audio Aesthetic Assessment via Triplet Loss and Self-Supervised Embeddings

Dyah A. M. G. Wisnu, Ryandhimas E. Zezario, Stefano Rini, Hsin-Min Wang, Yu Tsao

评论：被IEEE自动语音识别与理解研讨会（ASRU）2025接受

主题：音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[29] arXiv:2509.03021 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：基于大型语言模型的助听器零样本非侵入性语音可懂度研究

标题： A Study on Zero-Shot Non-Intrusive Speech Intelligibility for Hearing Aids Using Large Language Models

Ryandhimas E. Zezario, Dyah A.M.G. Wisnu, Hsin-Min Wang, Yu Tsao

评论：被IEEE ICCE-TW 2025接收

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[30] arXiv:2509.03017 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：非侵入式助听器可懂度预测：最新进展、趋势与挑战

标题： Non-Intrusive Intelligibility Prediction for Hearing Aids: Recent Advances, Trends, and Challenges

Ryandhimas E. Zezario

评论： APSIPA ASC 2025 意见论文

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[31] arXiv:2509.03013 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：基于不确定性感知的Whisper嵌入和sLSTM的语音可懂度评估

标题： Speech Intelligibility Assessment with Uncertainty-Aware Whisper Embeddings and sLSTM

Ryandhimas E. Zezario, Dyah A.M.G. Wisnu, Hsin-Min Wang, Yu Tsao

评论：被APSIPA ASC 2025接收

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[32] arXiv:2509.02622 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]: 标题： IS${}^3$ : 使用深度过滤的声学场景中通用的脉冲-稳态声音分离

标题： IS${}^3$ : Generic Impulsive--Stationary Sound Separation in Acoustic Scenes using Deep Filtering

Berger Clémentine (IDS, S2A), Stamadiatis Paraskevas (IDS, S2A), Badeau Roland (IDS, S2A), Essid Slim (IDS, S2A)

期刊参考： IEEE音频和声学中的信号处理应用研讨会，IEEE，2025年10月，塔霍城，加利福尼亚州，美国

主题：音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 声音 (cs.SD) ; 信号处理 (eess.SP)
[33] arXiv:2509.02571 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]: 标题：基于物理感知深度复合核的导向矢量高斯过程回归增强听觉

标题： Gaussian Process Regression of Steering Vectors With Physics-Aware Deep Composite Kernels for Augmented Listening

Diego Di Carlo (RIKEN AIP), Koyama Shoichi (UTokyo), Nugraha Aditya Arie (RIKEN AIP), Fontaine Mathieu (LTCI, S2A), Bando Yoshiaki (AIST), Yoshii Kazuyoshi (RIKEN AIP)

主题：音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 信号处理 (eess.SP)
[34] arXiv:2509.03256 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题：端到端语音评估模型在NOCASA 2025挑战赛中的比较

标题： Comparison of End-to-end Speech Assessment Models for the NOCASA 2025 Challenge

Aleksei Žavoronkov, Tanel Alumäe

评论：发表于IEEE MLSP 2025

主题：计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[35] arXiv:2509.03010 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题：减轻自动口语评估中的数据不平衡

标题： Mitigating Data Imbalance in Automated Speaking Assessment

Fong-Chun Tsai, Kuan-Tang Huang, Bi-Cheng Yan, Tien-Hong Lo, Berlin Chen

评论：提交至APSIPA 2025

主题：计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[36] arXiv:2509.02859 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：语音DF竞技场：语音深度伪造检测模型的排行榜

标题： Speech DF Arena: A Leaderboard for Speech DeepFake Detection Models

Sandipana Dowerah, Atharva Kulkarni, Ajinkya Kulkarni, Hoan My Tran, Joonas Kalda, Artem Fedorchenko, Benoit Fauve, Damien Lolive, Tanel Alumäe, Matthew Magimai Doss

主题：声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[37] arXiv:2509.02830 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题： SSVD：用于语音识别中领域偏移下的结构化奇异值分解参数高效微调和基准测试

标题： SSVD: Structured SVD for Parameter-Efficient Fine-Tuning and Benchmarking under Domain Shift in ASR

Pu Wang, Shinji Watanabe, Hugo Van hamme

评论：被IEEE ASRU 2025接受

主题：计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[38] arXiv:2509.02771 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：神经音频编解码器传输的说话人验证性能权衡分析

标题： Analysis of Speaker Verification Performance Trade-offs with Neural Audio Codec Transmission

Nirmalya Mallick Thakur, Jia Qi Yip, Eng Siong Chng

评论：被APSIPA ASC 2025接受

主题：声音 (cs.SD) ; 音频与语音处理 (eess.AS)

[39] arXiv:2509.01939 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：群体相对策略优化用于语音识别

标题： Group Relative Policy Optimization for Speech Recognition

Prashanth Gurunath Shivakumar, Yile Gu, Ankur Gandhe, Ivan Bulyko

评论：被ASRU 2025接受

主题：音频与语音处理 (eess.AS)
[40] arXiv:2509.01929 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：双耳掩蔽在实际中的应用：环境噪声中相位反转语音的感知水平

标题： Binaural Unmasking in Practical Use: Perceived Level of Phase-inverted Speech in Environmental Noise

Rina Kotani, Chiaki Miyazaki, Shiro Suzuki

主题：音频与语音处理 (eess.AS)
[41] arXiv:2509.01900 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：多语言语音识别使用离散标记的两步训练策略

标题： Multilingual Speech Recognition Using Discrete Tokens with a Two-step Training Strategy

Zehan Li, Yan Yang, Xueqing Li, Jian Kang, Xiao-Lei Zhang, Jie Li

评论：被NCMMSC 2024接受

主题：音频与语音处理 (eess.AS)
[42] arXiv:2509.01889 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：从评估到优化：面向下游应用的神经语音评估

标题： From Evaluation to Optimization: Neural Speech Assessment for Downstream Applications

Yu Tsao

评论： 5页，1图

主题：音频与语音处理 (eess.AS)
[43] arXiv:2509.01787 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题： AHAMask：无需指令的大音频语言模型可靠任务规范

标题： AHAMask: Reliable Task Specification for Large Audio Language Models without Instructions

Yiwei Guo, Bohan Li, Hankun Wang, Zhihan Li, Shuai Wang, Xie Chen, Kai Yu

评论： 15页，7表，6图

主题：音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 声音 (cs.SD)
[44] arXiv:2509.01419 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：澳大利亚原住民语言与高资源语言之间的语音相似性表征：以达拉瓦尔语为例

标题： Characterization of Speech Similarity Between Australian Aboriginal and High-Resource Languages: A Case Study on Dharawal

Ting Dang, Trini Manoj Jeyaseelan, Eliathamby Ambikairajah, Vidhyasaharan Sethu

评论：被APSIPA ASC 2025接受

主题：音频与语音处理 (eess.AS)
[45] arXiv:2509.01391 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：混合G2P-T5：使用语音自监督学习和语言模型的多语种文本无G2P语音合成

标题： MixedG2P-T5: G2P-free Speech Synthesis for Mixed-script texts using Speech Self-Supervised Learning and Language Model

Joonyong Park, Daisuke Saito, Nobuaki Minematsu

评论：在第17届亚太信号与信息处理协会年度峰会和会议（APSIPA ASC 2025）论文集中

主题：音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL)
[46] arXiv:2509.01087 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：带有三阶段训练的噪声去纠缠方法用于噪声鲁棒的语音识别

标题： Noisy Disentanglement with Tri-stage Training for Noise-Robust Speech Recognition

Shuangyuan Chen, Shuang Wei, Dongxing Xu, Yanhua Long

评论： 11页，4图

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[47] arXiv:2509.00685 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题： MPO：基于语言模型的文本到语音的多维偏好优化

标题： MPO: Multidimensional Preference Optimization for Language Model-based Text-to-Speech

Kangxiang Xia, Xinfa Zhu, Jixun Yao, Lei Xie

评论：被NCMMSC2025接受

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[48] arXiv:2509.00675 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：基于音素级预训练语言模型的说话人条件短语断点预测用于文本到语音

标题： Speaker-Conditioned Phrase Break Prediction for Text-to-Speech with Phoneme-Level Pre-trained Language Model

Dong Yang, Yuki Saito, Takaaki Saeki, Tomoki Koriyama, Wataru Nakata, Detai Xin, Hiroshi Saruwatari

评论：正在审核中

主题：音频与语音处理 (eess.AS)
[49] arXiv:2509.00400 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：深度学习用于个性化双耳音频再现

标题： Deep Learning for Personalized Binaural Audio Reproduction

Xikun Lu, Yunda Chen, Zehua Chen, Jie Wang, Mingxing Liu, Hongmei Hu, Chengshi Zheng, Stefan Bleeck, Jinqiu Sang

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[50] arXiv:2509.00106 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：量子增强的语音表演分析与评分

标题： Quantum-Enhanced Analysis and Grading of Vocal Performance

Rohan Agarwal

评论： 4页，5图。混合量子-经典可行性研究；仅模拟器结果

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)

总共 91 条目 : 1-50 51-91

显示最多 50 每页条目：较少 | 更多 | 所有

音频与语音处理

最近提交的作者和标题

2025年09月08日，星期一 (展示 18 之 18 条目 )

2025年09月05日，星期五 (展示 8 之 8 条目 )

2025年09月04日，星期四 (展示 12 之 12 条目 )

2025年09月03日，星期三 (展示首先 46 之 12 条目 )

音频与语音处理

最近提交的作者和标题

2025年09月08日， 星期一 (展示 18 之 18 条目 )

2025年09月05日， 星期五 (展示 8 之 8 条目 )

2025年09月04日， 星期四 (展示 12 之 12 条目 )

2025年09月03日， 星期三 (展示 首先 46 之 12 条目 )

2025年09月08日，星期一 (展示 18 之 18 条目 )

2025年09月05日，星期五 (展示 8 之 8 条目 )

2025年09月04日，星期四 (展示 12 之 12 条目 )

2025年09月03日，星期三 (展示首先 46 之 12 条目 )