声音

最近提交的作者和标题

查看今天的新的变化

总共 59 条目 : 1-50 51-59

显示最多 50 每页条目：较少 | 更多 | 所有

[1] arXiv:2508.21407 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： DRASP：一种用于自动MOS预测的双分辨率注意统计池化框架

标题： DRASP: A Dual-Resolution Attentive Statistics Pooling Framework for Automatic MOS Prediction

Cheng-Yeh Yang, Kuan-Tang Huang, Chien-Chun Wang, Hung-Shin Lee, Hsin-Min Wang, Berlin Chen

评论：被APSIPA ASC 2025接收

主题：声音 (cs.SD) ; 人工智能 (cs.AI)
[2] arXiv:2508.21243 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：全频段时间补丁与结构化掩码用于增强音频分类

标题： Full-Frequency Temporal Patching and Structured Masking for Enhanced Audio Classification

Aditya Makineni, Baocheng Geng, Qing Tian

主题：声音 (cs.SD) ; 人工智能 (cs.AI)
[3] arXiv:2508.21167 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： RARR：通过采集近表面音频进行鲁棒的现实世界活动识别

标题： RARR : Robust Real-World Activity Recognition with Vibration by Scavenging Near-Surface Audio Online

Dong Yoon Lee, Alyssa Weakley, Hui Wei, Blake Brown, Keyana Carrion, Shijia Pan

主题：声音 (cs.SD) ; 机器学习 (cs.LG)
[4] arXiv:2508.21153 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题： WaveLLDM：一种轻量级潜在扩散模型的设计与开发用于语音增强与恢复

标题： WaveLLDM: Design and Development of a Lightweight Latent Diffusion Model for Speech Enhancement and Restoration

Kevin Putra Santoso, Rizka Wakhidatus Sholikah, Raden Venantius Hari Ginardi

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[5] arXiv:2508.21248 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：基于SSL模型的分层特征的儿童语音零样本关键词搜索

标题： Zero-Shot KWS for Children's Speech using Layer-Wise Features from SSL Models

Subham Kutum, Abhijit Sinha, Hemant Kumar Kathania, Sudarsana Reddy Kadiri, Mahesh Chandra Govil

评论：已接受

期刊参考：模式识别 letters 2025

主题：音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 人机交互 (cs.HC) ; 声音 (cs.SD) ; 信号处理 (eess.SP)
[6] arXiv:2508.21225 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：可以分层SSL特征提升儿童语音的零样本ASR性能吗？

标题： Can Layer-wise SSL Features Improve Zero-Shot ASR Performance for Children's Speech?

Abhijit Sinha, Hemant Kumar Kathania, Sudarsana Reddy Kadiri, Shrikanth Narayanan

评论：已接受

期刊参考： IEEE 信号处理快报 2025

主题：音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 信号处理 (eess.SP)

[7] arXiv:2508.20976 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： WoW-Bench：通过海洋哺乳动物叫声评估音频-语言模型中的细粒度声学感知

标题： WoW-Bench: Evaluating Fine-Grained Acoustic Perception in Audio-Language Models via Marine Mammal Vocalizations

Jaeyeon Kim, Heeseung Yun, Sang Hoon Woo, Chao-Han Huck Yang, Gunhee Kim

评论：预印本。项目页面：https://jaeyeonkim99.github.io/wow_bench/

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[8] arXiv:2508.20914 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：通过特征蒸馏从双耳音频中学习鲁棒的空间表示

标题： Learning Robust Spatial Representations from Binaural Audio through Feature Distillation

Holger Severin Bovbjerg (1), Jan Ã˜stergaard (1), Jesper Jensen (1, 2), Shinji Watanabe (3), Zheng-Hua Tan ((1) Aalborg University (2) Eriksholm Research Centre, (3) Carnegie Mellon University)

评论：将出现在2025年10月12日至15日在美国太浩举行的WASPAA会议论文集上。版权所有（c）2025 IEEE。5页，2图，2表。

主题：声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[9] arXiv:2508.20885 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： SincQDR-VAD：一种利用可学习滤波器和排名感知优化的噪声鲁棒语音活动检测框架

标题： SincQDR-VAD: A Noise-Robust Voice Activity Detection Framework Leveraging Learnable Filters and Ranking-Aware Optimization

Chien-Chun Wang, En-Lun Yu, Jeih-Weih Hung, Shih-Chieh Huang, Berlin Chen

评论：被IEEE ASRU 2025接收

主题：声音 (cs.SD)
[10] arXiv:2508.20869 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： OLMoASR：用于训练鲁棒语音识别模型的开放模型和数据

标题： OLMoASR: Open Models and Data for Training Robust Speech Recognition Models

Huong Ngo, Matt Deitke, Martijn Bartelds, Sarah Pratt, Josh Gardner, Matt Jordan, Ludwig Schmidt

评论： 17页，7图

主题：声音 (cs.SD) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[11] arXiv:2508.20796 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：通过熵感知评分选择的语音情感识别

标题： Speech Emotion Recognition via Entropy-Aware Score Selection

ChenYi Chua, JunKai Wong, Chengxin Chen, Xiaoxiao Miao

评论：论文已被APCIPA ASC 2025接受

主题：声音 (cs.SD) ; 人工智能 (cs.AI)
[12] arXiv:2508.20717 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：基于语音的多种临床状况检测的统一多任务学习

标题： Unified Multi-task Learning for Voice-Based Detection of Diverse Clinical Conditions

Ran Piao, Yuan Lu, Hareld Kemps, Tong Xia, Aaqib Saeed

主题：声音 (cs.SD) ; 机器学习 (cs.LG)
[13] arXiv:2508.20665 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：阿马迪乌斯：具有双向属性建模的自回归符号音乐模型

标题： Amadeus: Autoregressive Model with Bidirectional Attribute Modelling for Symbolic Music

Hongju Su, Ke Li, Lan Yang, Honggang Zhang, Yi-Zhe Song

评论：正在审核中

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 多媒体 (cs.MM)
[14] arXiv:2508.20584 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：更准确的语音增强条件流匹配流畅化

标题： Flowing Straighter with Conditional Flow Matching for Accurate Speech Enhancement

Mattias Cross, Anton Ragni

评论：预印本，已接受

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG)
[15] arXiv:2508.20513 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： MoTAS：从TTS增强语音中基于Moe的特征选择用于增强的多模态阿尔茨海默病早期筛查

标题： MoTAS: MoE-Guided Feature Selection from TTS-Augmented Speech for Enhanced Multimodal Alzheimer's Early Screening

Yongqi Shao, Binxin Mei, Cong Tan, Hong Huo, Tao Fang

主题：声音 (cs.SD) ; 多媒体 (cs.MM)
[16] arXiv:2508.20870 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：基于电动转辙机开关声音的自动检测

标题： Automatic Inspection Based on Switch Sounds of Electric Point Machines

Ayano Shibata, Toshiki Gunji, Mitsuaki Tsuda, Takashi Endo, Kota Dohi, Tomoya Nishida, Satoko Nomoto

评论：被ASPECT 2025接收

主题：音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[17] arXiv:2508.20805 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题：探索机器学习和语言模型在多模态抑郁症检测中的应用

标题： Exploring Machine Learning and Language Models for Multimodal Depression Detection

Javier Si Zhao Hong, Timothy Zoe Delaya, Sherwyn Chan Yin Kit, Pai Chet Ng, Xiaoxiao Miao

评论：本文已被APCIPA ASC 2025接受

主题：计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 声音 (cs.SD)
[18] arXiv:2508.20660 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题： CodecBench：一个用于声学和语义评估的全面基准

标题： CodecBench: A Comprehensive Benchmark for Acoustic and Semantic Evaluation

Ruifan Deng, Yitian Gong, Qinghui Gao, Luozhijie Jin, Qinyuan Cheng, Zhaoye Fei, Shimin Li, Xipeng Qiu

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[19] arXiv:2508.20474 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：多说话人编码器的说话人分离、分离和ASR统一

标题： Unifying Diarization, Separation, and ASR with Multi-Speaker Encoder

Muhammad Shakeel, Yui Sudo, Yifan Peng, Chyi-Jiunn Lin, Shinji Watanabe

评论：被IEEE ASRU 2025接收

主题：音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL) ; 声音 (cs.SD)
[20] arXiv:2508.20273 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：从K-pop表演中实时提取人声

标题： Live Vocal Extraction from K-pop Performances

Yujin Kim, Richa Namballa, Magdalena Fuentes

评论： 2页+参考文献，1图，第26届国际音乐信息检索学会晚期演示会议的扩展摘要

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD) ; 信号处理 (eess.SP)

[21] arXiv:2508.19876 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： IRMA数据集：伊朗古典音乐的结构化音频-MIDI语料库

标题： The IRMA Dataset: A Structured Audio-MIDI Corpus for Iranian Classical Music

Sepideh Shafiei, Shapour Hakam

主题：声音 (cs.SD) ; 数字图书馆 (cs.DL)
[22] arXiv:2508.19603 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： CompLex：由自主代理构建的自动音乐生成音乐理论词典

标题： CompLex: Music Theory Lexicon Constructed by Autonomous Agents for Automatic Music Generation

Zhejing Hu, Yan Liu, Gong Chen, Bruce X.B. Yu

主题：声音 (cs.SD) ; 人工智能 (cs.AI)
[23] arXiv:2508.19514 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： MQAD：用于训练音乐大语言模型的大规模问答数据集

标题： MQAD: A Large-Scale Question Answering Dataset for Training Music Large Language Models

Zhihao Ouyang, Ju-Chiang Wang, Daiyu Zhang, Bin Chen, Shangjie Li, Quan Lin

主题：声音 (cs.SD)
[24] arXiv:2508.19308 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：婴儿在嘈杂环境中使用蓝图可分离卷积和时频循环神经网络的哭声检测

标题： Infant Cry Detection In Noisy Environment Using Blueprint Separable Convolutions and Time-Frequency Recurrent Neural Network

Haolin Yu, Yanxiong Li

主题：声音 (cs.SD)
[25] arXiv:2508.19262 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：基于节拍的MIDI表演节奏量化

标题： Beat-Based Rhythm Quantization of MIDI Performances

Maximilian Wachter, Sebastian Murgul, Michael Heizmann

评论：被接收为2025年第一届AES国际人工智能与机器学习音频会议（AIMLA LBDP）的最新演示论文。

主题：声音 (cs.SD) ; 计算与语言 (cs.CL) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[26] arXiv:2508.19251 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： MuSpike：具有脉冲神经网络的符号音乐生成基准和评估框架

标题： MuSpike: A Benchmark and Evaluation Framework for Symbolic Music Generation with Spiking Neural Networks

Qian Liang, Menghaoran Tang, Yi Zeng

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[27] arXiv:2508.20088 (交叉列表自 cs.CV) [中文pdf, pdf, html, 其他]: 标题：音频故事：使用大型语言模型生成长篇叙事音频

标题： AudioStory: Generating Long-Form Narrative Audio with Large Language Models

Yuxin Guo, Teng Wang, Yuying Ge, Shijie Ma, Yixiao Ge, Wei Zou, Ying Shan

主题：计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 声音 (cs.SD)
[28] arXiv:2508.19528 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题： FLASepformer：具有门控聚焦线性注意力Transformer的高效语音分离

标题： FLASepformer: Efficient Speech Separation with Gated Focused Linear Attention Transformer

Haoxu Wang, Yiheng Jiang, Gang Qiao, Pengteng Shi, Biao Tian

评论：被Interspeech 2025接受

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)

[29] arXiv:2508.18907 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： SegReConcat：一种语音匿名化攻击的数据增强方法

标题： SegReConcat: A Data Augmentation Method for Voice Anonymization Attack

Ridwan Arefeen, Xiaoxiao Miao, Rong Tong, Aik Beng Ng, Simon See

评论：论文已被APCIPA ASC 2025接受

主题：声音 (cs.SD) ; 人工智能 (cs.AI)
[30] arXiv:2508.18732 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题：通过CDSD数据库的跨学习微调策略用于发音障碍语音识别

标题： Cross-Learning Fine-Tuning Strategy for Dysarthric Speech Recognition Via CDSD database

Qing Xiao, Yingshan Peng, PeiPei Zhang

主题：声音 (cs.SD) ; 人工智能 (cs.AI)
[31] arXiv:2508.18440 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： SwiftF0：快速且准确的单音调音高检测

标题： SwiftF0: Fast and Accurate Monophonic Pitch Detection

Lars Nieradzik

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[32] arXiv:2508.18295 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： H-PRM：一种适用于各种语音识别系统的可插拔热词预检索模块

标题： H-PRM: A Pluggable Hotword Pre-Retrieval Module for Various Speech Recognition Systems

Huangyu Dai, Lingtao Mao, Ben Chen, Zihan Wang, Zihan Liang, Ying Han, Chenyi Lei, Han Li

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[33] arXiv:2508.19205 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题： VibeVoice 技术报告

标题： VibeVoice Technical Report

Zhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei

主题：计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[34] arXiv:2508.19180 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题： MDD：一种掩码扩散检测器，用于保护语音验证系统免受对抗扰动的影响

标题： MDD: a Mask Diffusion Detector to Protect Speaker Verification Systems from Adversarial Perturbations

Yibo Bai, Sizhou Chen, Michele Panariello, Xiao-Lei Zhang, Massimiliano Todisco, Nicholas Evans

评论：被APSIPA ASC 2025接受

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[35] arXiv:2508.18918 (交叉列表自 cs.HC) [中文pdf, pdf, html, 其他]: 标题： DESAMO：一种由嵌入式大语言模型驱动的面向老年人的智能家居设备，具有音频模式

标题： DESAMO: A Device for Elder-Friendly Smart Homes Powered by Embedded LLM with Audio Modality

Youngwon Choi, Donghyuk Jung, Hwayeon Kim

评论： 2页，2图。已接受作为UIST 2025海报展示

主题：人机交互 (cs.HC) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[36] arXiv:2508.18655 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]: 标题：情感全能：通过大型语言模型实现共情语音响应生成

标题： Emotion Omni: Enabling Empathetic Speech Response Generation through Large Language Models

Haoyu Wang, Guangyan Zhang, Jiale Chen, Jingyu Li, Yuehai Wang, Yiwen Guo

评论： 5页，1图，提交至ICASSP 2026

主题：计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[37] arXiv:2508.18653 (交叉列表自 cs.LG) [中文pdf, pdf, html, 其他]: 标题：风险的声音：一种多模态物理信息声学模型，用于预测市场波动性和增强市场可解释性

标题： The Sound of Risk: A Multimodal Physics-Informed Acoustic Model for Forecasting Market Volatility and Enhancing Market Interpretability

Xiaoliang Chen, Xin Yu, Le Chang, Teng Jing, Jiashuai He, Ze Wang, Yangjun Luo, Xingyu Chen, Jiayue Liang, Yuchen Wang, Jiaying Xie

评论： 9页，6图

主题：机器学习 (cs.LG) ; 人工智能 (cs.AI) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)

[38] arXiv:2508.18057 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：动态融合多模态网络用于语音健康检测

标题： Dynamic Fusion Multimodal Network for SpeechWellness Detection

Wenqiang Sun, Han Yin, Jisheng Bai, Jianfeng Chen

评论： 6页，5图

主题：声音 (cs.SD) ; 人工智能 (cs.AI)
[39] arXiv:2508.17878 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：通过多任务学习和动态特征融合增强语音情感识别

标题： Enhancing Speech Emotion Recognition with Multi-Task Learning and Dynamic Feature Fusion

Honghong Wang, Jing Deng, Fanqin Meng, Rong Zheng

评论：被interspeech2025接受

主题：声音 (cs.SD)
[40] arXiv:2508.17874 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：语音合成特征判别器

标题： Vocoder-Projected Feature Discriminator

Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo

评论：被Interspeech 2025接收。项目页面：https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/vpfd/

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS) ; 机器学习 (stat.ML)
[41] arXiv:2508.17868 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： FasterVoiceGrad：基于对抗扩散迁移蒸馏的更快一步扩散语音转换

标题： FasterVoiceGrad: Faster One-step Diffusion-Based Voice Conversion with Adversarial Diffusion Conversion Distillation

Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo

评论：被Interspeech 2025接受。项目页面： https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/fastervoicegrad/

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS) ; 机器学习 (stat.ML)
[42] arXiv:2508.17660 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： ClearMask：无噪声且保持自然性的语音深度伪造攻击防护

标题： ClearMask: Noise-Free and Naturalness-Preserving Protection Against Voice Deepfake Attacks

Yuanda Wang, Bocheng Chen, Hanqing Guo, Guangjing Wang, Weikang Ding, Qiben Yan

评论： 14页，被AsiaCCS 2025接收

主题：声音 (cs.SD) ; 密码学与安全 (cs.CR)
[43] arXiv:2508.17336 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：特定模态的语音增强和噪声自适应融合用于声学和骨传导麦克风框架

标题： Modality-Specific Speech Enhancement and Noise-Adaptive Fusion for Acoustic and Body-Conduction Microphone Framework

Yunsik Kim, Yoonyoung Chung

期刊参考：国际语音会议 2025

主题：声音 (cs.SD) ; 人工智能 (cs.AI)
[44] arXiv:2508.17229 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：生成语音恢复的多度量偏好对齐

标题： Multi-Metric Preference Alignment for Generative Speech Restoration

Junan Zhang, Xueyao Zhang, Jing Yang, Yuancheng Wang, Fan Fan, Zhizheng Wu

评论： 16页，10张图。演示页面：https://gensr-pref.github.io

主题：声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[45] arXiv:2508.17194 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：多尺度扫描网络用于机器异常声音检测

标题： Multi-scale Scanning Network for Machine Anomalous Sound Detection

Yucong Zhang, Juan Liu, Ming Li

评论：被ICONIP 2025接收

主题：声音 (cs.SD)
[46] arXiv:2508.17031 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题： RephraseTTS：基于动态长度文本的语音插入与说话人风格迁移

标题： RephraseTTS: Dynamic Length Text based Speech Insertion with Speaker Style Transfer

Neeraj Matiyali, Siddharth Srivastava, Gaurav Sharma

主题：声音 (cs.SD) ; 计算与语言 (cs.CL)
[47] arXiv:2508.16858 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]: 标题：野生欺骗挑战评估计划

标题： WildSpoof Challenge Evaluation Plan

Yihan Wu, Jee-weon Jung, Hye-jin Shim, Xin Cheng, Xin Wang

评论： ICASSP 2026 挑战赛

主题：声音 (cs.SD) ; 人工智能 (cs.AI)
[48] arXiv:2508.16790 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]: 标题： TaDiCodec：用于语音语言建模的文本感知扩散语音标记器

标题： TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling

Yuancheng Wang, Dekun Chen, Xueyao Zhang, Junan Zhang, Jiaqi Li, Zhizheng Wu

主题：声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[49] arXiv:2508.18006 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：未见过的说话人和语言适应用于带有适配器的轻量级文本到语音

标题： Unseen Speaker and Language Adaptation for Lightweight Text-To-Speech with Adapters

Alessio Falai, Ziyao Zhang, Akos Gangoly

评论：已被IEEE MLSP 2025接收

主题：音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[50] arXiv:2508.17980 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]: 标题：基于扩散的构音障碍语音增强的客观与主观评估

标题： Objective and Subjective Evaluation of Diffusion-Based Speech Enhancement for Dysarthric Speech

Dimme de Groot, Tanvina Patel, Devendra Kayande, Odette Scharenborg, Zhengjun Yue

评论：被接收至2025年国际语音会议

主题：音频与语音处理 (eess.AS) ; 声音 (cs.SD)

总共 59 条目 : 1-50 51-59

显示最多 50 每页条目：较少 | 更多 | 所有

声音

最近提交的作者和标题

2025年09月01日，星期一 (展示 6 之 6 条目 )

2025年08月29日，星期五 (展示 14 之 14 条目 )

2025年08月28日，星期四 (展示 8 之 8 条目 )

2025年08月27日，星期三 (展示 9 之 9 条目 )

2025年08月26日，星期二 (展示首先 22 之 13 条目 )

声音

最近提交的作者和标题

2025年09月01日， 星期一 (展示 6 之 6 条目 )

2025年08月29日， 星期五 (展示 14 之 14 条目 )

2025年08月28日， 星期四 (展示 8 之 8 条目 )

2025年08月27日， 星期三 (展示 9 之 9 条目 )

2025年08月26日， 星期二 (展示 首先 22 之 13 条目 )

2025年09月01日，星期一 (展示 6 之 6 条目 )

2025年08月29日，星期五 (展示 14 之 14 条目 )

2025年08月28日，星期四 (展示 8 之 8 条目 )

2025年08月27日，星期三 (展示 9 之 9 条目 )

2025年08月26日，星期二 (展示首先 22 之 13 条目 )