Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs.SD

帮助 | 高级搜索

声音

最近提交的作者和标题

  • 2025年09月01日, 星期一
  • 2025年08月29日, 星期五
  • 2025年08月28日, 星期四
  • 2025年08月27日, 星期三
  • 2025年08月26日, 星期二

查看今天的 新的 变化

总共 59 条目 : 1-50 51-59
显示最多 50 每页条目: 较少 | 更多 | 所有

2025年09月01日, 星期一 (展示 6 之 6 条目 )

[1] arXiv:2508.21407 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: DRASP:一种用于自动MOS预测的双分辨率注意统计池化框架
标题: DRASP: A Dual-Resolution Attentive Statistics Pooling Framework for Automatic MOS Prediction
Cheng-Yeh Yang, Kuan-Tang Huang, Chien-Chun Wang, Hung-Shin Lee, Hsin-Min Wang, Berlin Chen
评论: 被APSIPA ASC 2025接收
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
[2] arXiv:2508.21243 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 全频段时间补丁与结构化掩码用于增强音频分类
标题: Full-Frequency Temporal Patching and Structured Masking for Enhanced Audio Classification
Aditya Makineni, Baocheng Geng, Qing Tian
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
[3] arXiv:2508.21167 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: RARR:通过采集近表面音频进行鲁棒的现实世界活动识别
标题: RARR : Robust Real-World Activity Recognition with Vibration by Scavenging Near-Surface Audio Online
Dong Yoon Lee, Alyssa Weakley, Hui Wei, Blake Brown, Keyana Carrion, Shijia Pan
主题: 声音 (cs.SD) ; 机器学习 (cs.LG)
[4] arXiv:2508.21153 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: WaveLLDM:一种轻量级潜在扩散模型的设计与开发用于语音增强与恢复
标题: WaveLLDM: Design and Development of a Lightweight Latent Diffusion Model for Speech Enhancement and Restoration
Kevin Putra Santoso, Rizka Wakhidatus Sholikah, Raden Venantius Hari Ginardi
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[5] arXiv:2508.21248 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 基于SSL模型的分层特征的儿童语音零样本关键词搜索
标题: Zero-Shot KWS for Children's Speech using Layer-Wise Features from SSL Models
Subham Kutum, Abhijit Sinha, Hemant Kumar Kathania, Sudarsana Reddy Kadiri, Mahesh Chandra Govil
评论: 已接受
期刊参考: 模式识别 letters 2025
主题: 音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 人机交互 (cs.HC) ; 声音 (cs.SD) ; 信号处理 (eess.SP)
[6] arXiv:2508.21225 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 可以分层SSL特征提升儿童语音的零样本ASR性能吗?
标题: Can Layer-wise SSL Features Improve Zero-Shot ASR Performance for Children's Speech?
Abhijit Sinha, Hemant Kumar Kathania, Sudarsana Reddy Kadiri, Shrikanth Narayanan
评论: 已接受
期刊参考: IEEE 信号处理快报 2025
主题: 音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 信号处理 (eess.SP)

2025年08月29日, 星期五 (展示 14 之 14 条目 )

[7] arXiv:2508.20976 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: WoW-Bench:通过海洋哺乳动物叫声评估音频-语言模型中的细粒度声学感知
标题: WoW-Bench: Evaluating Fine-Grained Acoustic Perception in Audio-Language Models via Marine Mammal Vocalizations
Jaeyeon Kim, Heeseung Yun, Sang Hoon Woo, Chao-Han Huck Yang, Gunhee Kim
评论: 预印本。项目页面:https://jaeyeonkim99.github.io/wow_bench/
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[8] arXiv:2508.20914 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 通过特征蒸馏从双耳音频中学习鲁棒的空间表示
标题: Learning Robust Spatial Representations from Binaural Audio through Feature Distillation
Holger Severin Bovbjerg (1), Jan Østergaard (1), Jesper Jensen (1, 2), Shinji Watanabe (3), Zheng-Hua Tan ((1) Aalborg University (2) Eriksholm Research Centre, (3) Carnegie Mellon University)
评论: 将出现在2025年10月12日至15日在美国太浩举行的WASPAA会议论文集上。版权所有(c)2025 IEEE。5页,2图,2表。
主题: 声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[9] arXiv:2508.20885 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: SincQDR-VAD:一种利用可学习滤波器和排名感知优化的噪声鲁棒语音活动检测框架
标题: SincQDR-VAD: A Noise-Robust Voice Activity Detection Framework Leveraging Learnable Filters and Ranking-Aware Optimization
Chien-Chun Wang, En-Lun Yu, Jeih-Weih Hung, Shih-Chieh Huang, Berlin Chen
评论: 被IEEE ASRU 2025接收
主题: 声音 (cs.SD)
[10] arXiv:2508.20869 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: OLMoASR:用于训练鲁棒语音识别模型的开放模型和数据
标题: OLMoASR: Open Models and Data for Training Robust Speech Recognition Models
Huong Ngo, Matt Deitke, Martijn Bartelds, Sarah Pratt, Josh Gardner, Matt Jordan, Ludwig Schmidt
评论: 17页,7图
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[11] arXiv:2508.20796 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 通过熵感知评分选择的语音情感识别
标题: Speech Emotion Recognition via Entropy-Aware Score Selection
ChenYi Chua, JunKai Wong, Chengxin Chen, Xiaoxiao Miao
评论: 论文已被APCIPA ASC 2025接受
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
[12] arXiv:2508.20717 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 基于语音的多种临床状况检测的统一多任务学习
标题: Unified Multi-task Learning for Voice-Based Detection of Diverse Clinical Conditions
Ran Piao, Yuan Lu, Hareld Kemps, Tong Xia, Aaqib Saeed
主题: 声音 (cs.SD) ; 机器学习 (cs.LG)
[13] arXiv:2508.20665 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 阿马迪乌斯:具有双向属性建模的自回归符号音乐模型
标题: Amadeus: Autoregressive Model with Bidirectional Attribute Modelling for Symbolic Music
Hongju Su, Ke Li, Lan Yang, Honggang Zhang, Yi-Zhe Song
评论: 正在审核中
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[14] arXiv:2508.20584 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 更准确的语音增强条件流匹配流畅化
标题: Flowing Straighter with Conditional Flow Matching for Accurate Speech Enhancement
Mattias Cross, Anton Ragni
评论: 预印本,已接受
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG)
[15] arXiv:2508.20513 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: MoTAS:从TTS增强语音中基于Moe的特征选择用于增强的多模态阿尔茨海默病早期筛查
标题: MoTAS: MoE-Guided Feature Selection from TTS-Augmented Speech for Enhanced Multimodal Alzheimer's Early Screening
Yongqi Shao, Binxin Mei, Cong Tan, Hong Huo, Tao Fang
主题: 声音 (cs.SD) ; 多媒体 (cs.MM)
[16] arXiv:2508.20870 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 基于电动转辙机开关声音的自动检测
标题: Automatic Inspection Based on Switch Sounds of Electric Point Machines
Ayano Shibata, Toshiki Gunji, Mitsuaki Tsuda, Takashi Endo, Kota Dohi, Tomoya Nishida, Satoko Nomoto
评论: 被ASPECT 2025接收
主题: 音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[17] arXiv:2508.20805 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 探索机器学习和语言模型在多模态抑郁症检测中的应用
标题: Exploring Machine Learning and Language Models for Multimodal Depression Detection
Javier Si Zhao Hong, Timothy Zoe Delaya, Sherwyn Chan Yin Kit, Pai Chet Ng, Xiaoxiao Miao
评论: 本文已被APCIPA ASC 2025接受
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 声音 (cs.SD)
[18] arXiv:2508.20660 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: CodecBench:一个用于声学和语义评估的全面基准
标题: CodecBench: A Comprehensive Benchmark for Acoustic and Semantic Evaluation
Ruifan Deng, Yitian Gong, Qinghui Gao, Luozhijie Jin, Qinyuan Cheng, Zhaoye Fei, Shimin Li, Xipeng Qiu
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[19] arXiv:2508.20474 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 多说话人编码器的说话人分离、分离和ASR统一
标题: Unifying Diarization, Separation, and ASR with Multi-Speaker Encoder
Muhammad Shakeel, Yui Sudo, Yifan Peng, Chyi-Jiunn Lin, Shinji Watanabe
评论: 被IEEE ASRU 2025接收
主题: 音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL) ; 声音 (cs.SD)
[20] arXiv:2508.20273 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 从K-pop表演中实时提取人声
标题: Live Vocal Extraction from K-pop Performances
Yujin Kim, Richa Namballa, Magdalena Fuentes
评论: 2页+参考文献,1图,第26届国际音乐信息检索学会晚期演示会议的扩展摘要
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD) ; 信号处理 (eess.SP)

2025年08月28日, 星期四 (展示 8 之 8 条目 )

[21] arXiv:2508.19876 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: IRMA数据集:伊朗古典音乐的结构化音频-MIDI语料库
标题: The IRMA Dataset: A Structured Audio-MIDI Corpus for Iranian Classical Music
Sepideh Shafiei, Shapour Hakam
主题: 声音 (cs.SD) ; 数字图书馆 (cs.DL)
[22] arXiv:2508.19603 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: CompLex:由自主代理构建的自动音乐生成音乐理论词典
标题: CompLex: Music Theory Lexicon Constructed by Autonomous Agents for Automatic Music Generation
Zhejing Hu, Yan Liu, Gong Chen, Bruce X.B. Yu
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
[23] arXiv:2508.19514 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: MQAD:用于训练音乐大语言模型的大规模问答数据集
标题: MQAD: A Large-Scale Question Answering Dataset for Training Music Large Language Models
Zhihao Ouyang, Ju-Chiang Wang, Daiyu Zhang, Bin Chen, Shangjie Li, Quan Lin
主题: 声音 (cs.SD)
[24] arXiv:2508.19308 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 婴儿在嘈杂环境中使用蓝图可分离卷积和时频循环神经网络的哭声检测
标题: Infant Cry Detection In Noisy Environment Using Blueprint Separable Convolutions and Time-Frequency Recurrent Neural Network
Haolin Yu, Yanxiong Li
主题: 声音 (cs.SD)
[25] arXiv:2508.19262 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 基于节拍的MIDI表演节奏量化
标题: Beat-Based Rhythm Quantization of MIDI Performances
Maximilian Wachter, Sebastian Murgul, Michael Heizmann
评论: 被接收为2025年第一届AES国际人工智能与机器学习音频会议(AIMLA LBDP)的最新演示论文。
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[26] arXiv:2508.19251 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: MuSpike:具有脉冲神经网络的符号音乐生成基准和评估框架
标题: MuSpike: A Benchmark and Evaluation Framework for Symbolic Music Generation with Spiking Neural Networks
Qian Liang, Menghaoran Tang, Yi Zeng
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[27] arXiv:2508.20088 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]
标题: 音频故事:使用大型语言模型生成长篇叙事音频
标题: AudioStory: Generating Long-Form Narrative Audio with Large Language Models
Yuxin Guo, Teng Wang, Yuying Ge, Shijie Ma, Yixiao Ge, Wei Zou, Ying Shan
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 声音 (cs.SD)
[28] arXiv:2508.19528 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: FLASepformer:具有门控聚焦线性注意力Transformer的高效语音分离
标题: FLASepformer: Efficient Speech Separation with Gated Focused Linear Attention Transformer
Haoxu Wang, Yiheng Jiang, Gang Qiao, Pengteng Shi, Biao Tian
评论: 被Interspeech 2025接受
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)

2025年08月27日, 星期三 (展示 9 之 9 条目 )

[29] arXiv:2508.18907 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: SegReConcat:一种语音匿名化攻击的数据增强方法
标题: SegReConcat: A Data Augmentation Method for Voice Anonymization Attack
Ridwan Arefeen, Xiaoxiao Miao, Rong Tong, Aik Beng Ng, Simon See
评论: 论文已被APCIPA ASC 2025接受
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
[30] arXiv:2508.18732 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 通过CDSD数据库的跨学习微调策略用于发音障碍语音识别
标题: Cross-Learning Fine-Tuning Strategy for Dysarthric Speech Recognition Via CDSD database
Qing Xiao, Yingshan Peng, PeiPei Zhang
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
[31] arXiv:2508.18440 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: SwiftF0:快速且准确的单音调音高检测
标题: SwiftF0: Fast and Accurate Monophonic Pitch Detection
Lars Nieradzik
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[32] arXiv:2508.18295 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: H-PRM:一种适用于各种语音识别系统的可插拔热词预检索模块
标题: H-PRM: A Pluggable Hotword Pre-Retrieval Module for Various Speech Recognition Systems
Huangyu Dai, Lingtao Mao, Ben Chen, Zihan Wang, Zihan Liang, Ying Han, Chenyi Lei, Han Li
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[33] arXiv:2508.19205 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: VibeVoice 技术报告
标题: VibeVoice Technical Report
Zhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[34] arXiv:2508.19180 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: MDD:一种掩码扩散检测器,用于保护语音验证系统免受对抗扰动的影响
标题: MDD: a Mask Diffusion Detector to Protect Speaker Verification Systems from Adversarial Perturbations
Yibo Bai, Sizhou Chen, Michele Panariello, Xiao-Lei Zhang, Massimiliano Todisco, Nicholas Evans
评论: 被APSIPA ASC 2025接受
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[35] arXiv:2508.18918 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]
标题: DESAMO:一种由嵌入式大语言模型驱动的面向老年人的智能家居设备,具有音频模式
标题: DESAMO: A Device for Elder-Friendly Smart Homes Powered by Embedded LLM with Audio Modality
Youngwon Choi, Donghyuk Jung, Hwayeon Kim
评论: 2页,2图。已接受作为UIST 2025海报展示
主题: 人机交互 (cs.HC) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[36] arXiv:2508.18655 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 情感全能:通过大型语言模型实现共情语音响应生成
标题: Emotion Omni: Enabling Empathetic Speech Response Generation through Large Language Models
Haoyu Wang, Guangyan Zhang, Jiale Chen, Jingyu Li, Yuehai Wang, Yiwen Guo
评论: 5页,1图,提交至ICASSP 2026
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[37] arXiv:2508.18653 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]
标题: 风险的声音:一种多模态物理信息声学模型,用于预测市场波动性和增强市场可解释性
标题: The Sound of Risk: A Multimodal Physics-Informed Acoustic Model for Forecasting Market Volatility and Enhancing Market Interpretability
Xiaoliang Chen, Xin Yu, Le Chang, Teng Jing, Jiashuai He, Ze Wang, Yangjun Luo, Xingyu Chen, Jiayue Liang, Yuchen Wang, Jiaying Xie
评论: 9页,6图
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)

2025年08月26日, 星期二 (展示 首先 22 之 13 条目 )

[38] arXiv:2508.18057 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 动态融合多模态网络用于语音健康检测
标题: Dynamic Fusion Multimodal Network for SpeechWellness Detection
Wenqiang Sun, Han Yin, Jisheng Bai, Jianfeng Chen
评论: 6页,5图
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
[39] arXiv:2508.17878 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 通过多任务学习和动态特征融合增强语音情感识别
标题: Enhancing Speech Emotion Recognition with Multi-Task Learning and Dynamic Feature Fusion
Honghong Wang, Jing Deng, Fanqin Meng, Rong Zheng
评论: 被interspeech2025接受
主题: 声音 (cs.SD)
[40] arXiv:2508.17874 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 语音合成特征判别器
标题: Vocoder-Projected Feature Discriminator
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo
评论: 被Interspeech 2025接收。项目页面:https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/vpfd/
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS) ; 机器学习 (stat.ML)
[41] arXiv:2508.17868 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: FasterVoiceGrad:基于对抗扩散迁移蒸馏的更快一步扩散语音转换
标题: FasterVoiceGrad: Faster One-step Diffusion-Based Voice Conversion with Adversarial Diffusion Conversion Distillation
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo
评论: 被Interspeech 2025接受。项目页面: https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/fastervoicegrad/
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS) ; 机器学习 (stat.ML)
[42] arXiv:2508.17660 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: ClearMask:无噪声且保持自然性的语音深度伪造攻击防护
标题: ClearMask: Noise-Free and Naturalness-Preserving Protection Against Voice Deepfake Attacks
Yuanda Wang, Bocheng Chen, Hanqing Guo, Guangjing Wang, Weikang Ding, Qiben Yan
评论: 14页,被AsiaCCS 2025接收
主题: 声音 (cs.SD) ; 密码学与安全 (cs.CR)
[43] arXiv:2508.17336 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 特定模态的语音增强和噪声自适应融合用于声学和骨传导麦克风框架
标题: Modality-Specific Speech Enhancement and Noise-Adaptive Fusion for Acoustic and Body-Conduction Microphone Framework
Yunsik Kim, Yoonyoung Chung
期刊参考: 国际语音会议 2025
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
[44] arXiv:2508.17229 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 生成语音恢复的多度量偏好对齐
标题: Multi-Metric Preference Alignment for Generative Speech Restoration
Junan Zhang, Xueyao Zhang, Jing Yang, Yuancheng Wang, Fan Fan, Zhizheng Wu
评论: 16页,10张图。演示页面:https://gensr-pref.github.io
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[45] arXiv:2508.17194 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 多尺度扫描网络用于机器异常声音检测
标题: Multi-scale Scanning Network for Machine Anomalous Sound Detection
Yucong Zhang, Juan Liu, Ming Li
评论: 被ICONIP 2025接收
主题: 声音 (cs.SD)
[46] arXiv:2508.17031 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: RephraseTTS:基于动态长度文本的语音插入与说话人风格迁移
标题: RephraseTTS: Dynamic Length Text based Speech Insertion with Speaker Style Transfer
Neeraj Matiyali, Siddharth Srivastava, Gaurav Sharma
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL)
[47] arXiv:2508.16858 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 野生欺骗挑战评估计划
标题: WildSpoof Challenge Evaluation Plan
Yihan Wu, Jee-weon Jung, Hye-jin Shim, Xin Cheng, Xin Wang
评论: ICASSP 2026 挑战赛
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
[48] arXiv:2508.16790 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: TaDiCodec:用于语音语言建模的文本感知扩散语音标记器
标题: TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling
Yuancheng Wang, Dekun Chen, Xueyao Zhang, Junan Zhang, Jiaqi Li, Zhizheng Wu
主题: 声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[49] arXiv:2508.18006 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 未见过的说话人和语言适应用于带有适配器的轻量级文本到语音
标题: Unseen Speaker and Language Adaptation for Lightweight Text-To-Speech with Adapters
Alessio Falai, Ziyao Zhang, Akos Gangoly
评论: 已被IEEE MLSP 2025接收
主题: 音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[50] arXiv:2508.17980 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 基于扩散的构音障碍语音增强的客观与主观评估
标题: Objective and Subjective Evaluation of Diffusion-Based Speech Enhancement for Dysarthric Speech
Dimme de Groot, Tanvina Patel, Devendra Kayande, Odette Scharenborg, Zhengjun Yue
评论: 被接收至2025年国际语音会议
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
总共 59 条目 : 1-50 51-59
显示最多 50 每页条目: 较少 | 更多 | 所有
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号