Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > eess.AS

帮助 | 高级搜索

音频与语音处理

最近提交的作者和标题

  • 2025年09月05日, 星期五
  • 2025年09月04日, 星期四
  • 2025年09月03日, 星期三
  • 2025年09月01日, 星期一
  • 2025年08月29日, 星期五

查看今天的 新的 变化

总共 86 条目 : 1-50 51-86
显示最多 50 每页条目: 较少 | 更多 | 所有

2025年09月05日, 星期五 (展示 8 之 8 条目 )

[1] arXiv:2509.04390 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 使用图形硬件加速高度混响空间的交互式听觉化
标题: Accelerated Interactive Auralization of Highly Reverberant Spaces using Graphics Hardware
Hannes Rosseel, Toon van Waterschoot
评论: 8页,6图,提交至《音频工程协会杂志》
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[2] arXiv:2509.04280 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]
标题: 通过域不变嵌入变换的语音增强测试时适应
标题: Test-Time Adaptation for Speech Enhancement via Domain Invariant Embedding Transformation
Tobias Raichle, Niels Edinger, Bin Yang
评论: 此工作已提交给IEEE以可能发表
主题: 音频与语音处理 (eess.AS)
[3] arXiv:2509.04072 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: LibriQuote:用于情感零样本语音合成的虚构角色对话语音数据集
标题: LibriQuote: A Speech Dataset of Fictional Character Utterances for Expressive Zero-Shot Speech Synthesis
Gaspard Michel, Elena V. Epure, Christophe Cerisara
主题: 音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL) ; 声音 (cs.SD)
[4] arXiv:2509.03902 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 基于球形和线性麦克风阵列的分层稀疏声场重建
标题: Hierarchical Sparse Sound Field Reconstruction with Spherical and Linear Microphone Arrays
Shunxi Xu, Craig T. Jin
评论: 被APSIPA ASC 2025接受
主题: 音频与语音处理 (eess.AS)
[5] arXiv:2509.03913 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: SwinSRGAN:基于Swin变换器的生成对抗网络用于高保真语音超分辨率
标题: SwinSRGAN: Swin Transformer-based Generative Adversarial Network for High-Fidelity Speech Super-Resolution
Jiajun Yuan, Xiaochen Wang, Yuhang Xiao, Yulin Wu, Chenhao Hu, Xueyang Lv
评论: 5页
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[6] arXiv:2509.03529 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 基于人工智能的工具以提高信息交叉评估的多模态建议
标题: Multimodal Proposal for an AI-Based Tool to Increase Cross-Assessment of Messages
Alejandro Álvarez Castro, Joaquín Ordieres-Meré
评论: 发表于NLMLT2025(https://airccse.org/csit/V15N16.html),15页,5图
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[7] arXiv:2509.03526 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 通过强化行为对齐增强语音大语言模型
标题: Enhancing Speech Large Language Models through Reinforced Behavior Alignment
Yansong Liu, Jiateng Li, Yuan Liu
主题: 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[8] arXiv:2509.03525 (交叉列表自 cs.CL) [中文pdf, pdf, 其他]
标题: 基于语音的认知筛查:LLM适应策略的系统评估
标题: Speech-Based Cognitive Screening: A Systematic Evaluation of LLM Adaptation Strategies
Fatemeh Taherinezhad, Mohamad Javad Momeni Nezhad, Sepehr Karimi, Sina Rashidi, Ali Zolnour, Maryam Dadkhah, Yasaman Haghbin, Hossein AzadMaleki, Maryam Zolnoori
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)

2025年09月04日, 星期四 (展示 12 之 12 条目 )

[9] arXiv:2509.03372 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 一种对自动口语评估中的评分序数和非均匀区间进行建模的有效策略
标题: An Effective Strategy for Modeling Score Ordinality and Non-uniform Intervals in Automated Speaking Assessment
Tien-Hong Lo, Szu-Yu Chen, Yao-Ting Sung, Berlin Chen
评论: 被ASRU 2025接收
主题: 音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[10] arXiv:2509.03292 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 通过三元组损失和自监督嵌入改进感知音频美学评估
标题: Improving Perceptual Audio Aesthetic Assessment via Triplet Loss and Self-Supervised Embeddings
Dyah A. M. G. Wisnu, Ryandhimas E. Zezario, Stefano Rini, Hsin-Min Wang, Yu Tsao
评论: 被IEEE自动语音识别与理解研讨会(ASRU)2025接受
主题: 音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[11] arXiv:2509.03021 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 基于大型语言模型的助听器零样本非侵入性语音可懂度研究
标题: A Study on Zero-Shot Non-Intrusive Speech Intelligibility for Hearing Aids Using Large Language Models
Ryandhimas E. Zezario, Dyah A.M.G. Wisnu, Hsin-Min Wang, Yu Tsao
评论: 被IEEE ICCE-TW 2025接收
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[12] arXiv:2509.03017 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 非侵入式助听器可懂度预测:最新进展、趋势与挑战
标题: Non-Intrusive Intelligibility Prediction for Hearing Aids: Recent Advances, Trends, and Challenges
Ryandhimas E. Zezario
评论: APSIPA ASC 2025 意见论文
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[13] arXiv:2509.03013 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 基于不确定性感知的Whisper嵌入和sLSTM的语音可懂度评估
标题: Speech Intelligibility Assessment with Uncertainty-Aware Whisper Embeddings and sLSTM
Ryandhimas E. Zezario, Dyah A.M.G. Wisnu, Hsin-Min Wang, Yu Tsao
评论: 被APSIPA ASC 2025接收
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[14] arXiv:2509.02622 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]
标题: IS${}^3$ : 使用深度过滤的声学场景中通用的脉冲-稳态声音分离
标题: IS${}^3$ : Generic Impulsive--Stationary Sound Separation in Acoustic Scenes using Deep Filtering
Berger Clémentine (IDS, S2A), Stamadiatis Paraskevas (IDS, S2A), Badeau Roland (IDS, S2A), Essid Slim (IDS, S2A)
期刊参考: IEEE音频和声学中的信号处理应用研讨会,IEEE,2025年10月,塔霍城,加利福尼亚州,美国
主题: 音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 声音 (cs.SD) ; 信号处理 (eess.SP)
[15] arXiv:2509.02571 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]
标题: 基于物理感知深度复合核的导向矢量高斯过程回归增强听觉
标题: Gaussian Process Regression of Steering Vectors With Physics-Aware Deep Composite Kernels for Augmented Listening
Diego Di Carlo (RIKEN AIP), Koyama Shoichi (UTokyo), Nugraha Aditya Arie (RIKEN AIP), Fontaine Mathieu (LTCI, S2A), Bando Yoshiaki (AIST), Yoshii Kazuyoshi (RIKEN AIP)
主题: 音频与语音处理 (eess.AS) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 信号处理 (eess.SP)
[16] arXiv:2509.03256 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 端到端语音评估模型在NOCASA 2025挑战赛中的比较
标题: Comparison of End-to-end Speech Assessment Models for the NOCASA 2025 Challenge
Aleksei Žavoronkov, Tanel Alumäe
评论: 发表于IEEE MLSP 2025
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[17] arXiv:2509.03010 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 减轻自动口语评估中的数据不平衡
标题: Mitigating Data Imbalance in Automated Speaking Assessment
Fong-Chun Tsai, Kuan-Tang Huang, Bi-Cheng Yan, Tien-Hong Lo, Berlin Chen
评论: 提交至APSIPA 2025
主题: 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[18] arXiv:2509.02859 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 语音DF竞技场:语音深度伪造检测模型的排行榜
标题: Speech DF Arena: A Leaderboard for Speech DeepFake Detection Models
Sandipana Dowerah, Atharva Kulkarni, Ajinkya Kulkarni, Hoan My Tran, Joonas Kalda, Artem Fedorchenko, Benoit Fauve, Damien Lolive, Tanel Alumäe, Matthew Magimai Doss
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[19] arXiv:2509.02830 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: SSVD:用于语音识别中领域偏移下的结构化奇异值分解参数高效微调和基准测试
标题: SSVD: Structured SVD for Parameter-Efficient Fine-Tuning and Benchmarking under Domain Shift in ASR
Pu Wang, Shinji Watanabe, Hugo Van hamme
评论: 被IEEE ASRU 2025接受
主题: 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[20] arXiv:2509.02771 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 神经音频编解码器传输的说话人验证性能权衡分析
标题: Analysis of Speaker Verification Performance Trade-offs with Neural Audio Codec Transmission
Nirmalya Mallick Thakur, Jia Qi Yip, Eng Siong Chng
评论: 被APSIPA ASC 2025接受
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)

2025年09月03日, 星期三 (展示 首先 46 之 30 条目 )

[21] arXiv:2509.01939 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 群体相对策略优化用于语音识别
标题: Group Relative Policy Optimization for Speech Recognition
Prashanth Gurunath Shivakumar, Yile Gu, Ankur Gandhe, Ivan Bulyko
评论: 被ASRU 2025接受
主题: 音频与语音处理 (eess.AS)
[22] arXiv:2509.01929 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 双耳掩蔽在实际中的应用:环境噪声中相位反转语音的感知水平
标题: Binaural Unmasking in Practical Use: Perceived Level of Phase-inverted Speech in Environmental Noise
Rina Kotani, Chiaki Miyazaki, Shiro Suzuki
主题: 音频与语音处理 (eess.AS)
[23] arXiv:2509.01900 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 多语言语音识别使用离散标记的两步训练策略
标题: Multilingual Speech Recognition Using Discrete Tokens with a Two-step Training Strategy
Zehan Li, Yan Yang, Xueqing Li, Jian Kang, Xiao-Lei Zhang, Jie Li
评论: 被NCMMSC 2024接受
主题: 音频与语音处理 (eess.AS)
[24] arXiv:2509.01889 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 从评估到优化:面向下游应用的神经语音评估
标题: From Evaluation to Optimization: Neural Speech Assessment for Downstream Applications
Yu Tsao
评论: 5页,1图
主题: 音频与语音处理 (eess.AS)
[25] arXiv:2509.01787 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: AHAMask:无需指令的大音频语言模型可靠任务规范
标题: AHAMask: Reliable Task Specification for Large Audio Language Models without Instructions
Yiwei Guo, Bohan Li, Hankun Wang, Zhihan Li, Shuai Wang, Xie Chen, Kai Yu
评论: 15页,7表,6图
主题: 音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 声音 (cs.SD)
[26] arXiv:2509.01419 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 澳大利亚原住民语言与高资源语言之间的语音相似性表征:以达拉瓦尔语为例
标题: Characterization of Speech Similarity Between Australian Aboriginal and High-Resource Languages: A Case Study on Dharawal
Ting Dang, Trini Manoj Jeyaseelan, Eliathamby Ambikairajah, Vidhyasaharan Sethu
评论: 被APSIPA ASC 2025接受
主题: 音频与语音处理 (eess.AS)
[27] arXiv:2509.01391 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 混合G2P-T5:使用语音自监督学习和语言模型的多语种文本无G2P语音合成
标题: MixedG2P-T5: G2P-free Speech Synthesis for Mixed-script texts using Speech Self-Supervised Learning and Language Model
Joonyong Park, Daisuke Saito, Nobuaki Minematsu
评论: 在第17届亚太信号与信息处理协会年度峰会和会议(APSIPA ASC 2025)论文集中
主题: 音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL)
[28] arXiv:2509.01087 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 带有三阶段训练的噪声去纠缠方法用于噪声鲁棒的语音识别
标题: Noisy Disentanglement with Tri-stage Training for Noise-Robust Speech Recognition
Shuangyuan Chen, Shuang Wei, Dongxing Xu, Yanhua Long
评论: 11页,4图
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[29] arXiv:2509.00685 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: MPO:基于语言模型的文本到语音的多维偏好优化
标题: MPO: Multidimensional Preference Optimization for Language Model-based Text-to-Speech
Kangxiang Xia, Xinfa Zhu, Jixun Yao, Lei Xie
评论: 被NCMMSC2025接受
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[30] arXiv:2509.00675 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 基于音素级预训练语言模型的说话人条件短语断点预测用于文本到语音
标题: Speaker-Conditioned Phrase Break Prediction for Text-to-Speech with Phoneme-Level Pre-trained Language Model
Dong Yang, Yuki Saito, Takaaki Saeki, Tomoki Koriyama, Wataru Nakata, Detai Xin, Hiroshi Saruwatari
评论: 正在审核中
主题: 音频与语音处理 (eess.AS)
[31] arXiv:2509.00400 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 深度学习用于个性化双耳音频再现
标题: Deep Learning for Personalized Binaural Audio Reproduction
Xikun Lu, Yunda Chen, Zehua Chen, Jie Wang, Mingxing Liu, Hongmei Hu, Chengshi Zheng, Stefan Bleeck, Jinqiu Sang
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[32] arXiv:2509.00106 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 量子增强的语音表演分析与评分
标题: Quantum-Enhanced Analysis and Grading of Vocal Performance
Rohan Agarwal
评论: 4页,5图。混合量子-经典可行性研究;仅模拟器结果
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
[33] arXiv:2509.00094 (交叉列表自 eess.AS) [中文pdf, pdf, 其他]
标题: 使用深度学习的《古兰经》学习者发音错误检测与纠正
标题: Automatic Pronunciation Error Detection and Correction of the Holy Quran's Learners Using Deep Learning
Abdullah Abdelfattah, Mahmoud I. Khalil, Hazem Abbas
主题: 音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[34] arXiv:2509.00078 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: ChipChat:MLX中的低延迟级联对话代理
标题: ChipChat: Low-Latency Cascaded Conversational Agent in MLX
Tatiana Likhomanenko, Luke Carlson, Richard He Bai, Zijin Gu, Han Tran, Zakaria Aldeneh, Yizhe Zhang, Ruixiang Zhang, Huangjie Zheng, Navdeep Jaitly
评论: ASRU 2025
主题: 音频与语音处理 (eess.AS) ; 计算与语言 (cs.CL) ; 机器学习 (cs.LG) ; 声音 (cs.SD)
[35] arXiv:2509.00077 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: 放大情感信号:用于稳健语音情感识别的数据高效深度学习
标题: Amplifying Emotional Signals: Data-Efficient Deep Learning for Robust Speech Emotion Recognition
Tai Vu
主题: 音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 声音 (cs.SD)
[36] arXiv:2509.00025 (交叉列表自 eess.AS) [中文pdf, pdf, html, 其他]
标题: DeepEmoNet:构建用于人类言语中自动情感识别的机器学习模型
标题: DeepEmoNet: Building Machine Learning Models for Automatic Emotion Recognition in Human Speeches
Tai Vu
主题: 音频与语音处理 (eess.AS) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG)
[37] arXiv:2509.02398 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: TTA-Bench:评估文本到音频模型的全面基准
标题: TTA-Bench: A Comprehensive Benchmark for Evaluating Text-to-Audio Models
Hui Wang, Cheng Liu, Junyang Chen, Haoze Liu, Yuhang Jia, Shiwan Zhao, Jiaming Zhou, Haoqin Sun, Hui Bu, Yong Qin
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[38] arXiv:2509.02244 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 频谱图块编解码器:用于神经语音编码的二维块量化VQ-VAE和HiFi-GAN
标题: Spectrogram Patch Codec: A 2D Block-Quantized VQ-VAE and HiFi-GAN for Neural Speech Coding
Luis Felipe Chary, Miguel Arjona Ramirez
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[39] arXiv:2509.02020 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: FireRedTTS-2:面向播客和聊天机器人的长对话语音生成
标题: FireRedTTS-2: Towards Long Conversational Speech Generation for Podcast and Chatbot
Kun Xie, Feiyu Shen, Junjie Li, Fenglong Xie, Xu Tang, Yao Hu
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[40] arXiv:2509.01588 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 从混乱到和谐:基于分解协和的音频和弦估计训练方法
标题: From Discord to Harmony: Decomposed Consonance-based Training for Improved Audio Chord Estimation
Andrea Poltronieri, Xavier Serra, Martín Rocamora
评论: 9页,3图,3表
期刊参考: 第26届国际音乐信息检索学会会议(ISMIR 2025),2025年9月21日至25日,韩国大田
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[41] arXiv:2509.01401 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 阿拉伯情感网:一种用于鲁棒阿拉伯语语音情感识别的轻量级混合2D CNN-BiLSTM模型与注意力机制
标题: ArabEmoNet: A Lightweight Hybrid 2D CNN-BiLSTM Model with Attention for Robust Arabic Speech Emotion Recognition
Ali Abouzeid, Bilal Elbouardi, Mohamed Maged, Shady Shehata
评论: 被接受(第三届阿拉伯自然语言处理会议)
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[42] arXiv:2509.01399 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 舱室分离:基于掩码的MVDR实时车内语音分离方法,适用于分布式异构阵列
标题: CabinSep: IR-Augmented Mask-Based MVDR for Real-Time In-Car Speech Separation with Distributed Heterogeneous Arrays
Runduo Han, Yanxin Hu, Yihui Fu, Zihan Zhang, Yukai Jv, Li Chen, Lei Xie
评论: 被Interspeech 2025接受
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 人机交互 (cs.HC) ; 音频与语音处理 (eess.AS)
[43] arXiv:2509.01390 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: 分析神经音频编码器的语言
标题: Analysing the Language of Neural Audio Codecs
Joonyong Park, Shinnosuke Takamichi, David M. Chan, Shunsuke Kando, Yuki Saito, Hiroshi Saruwatari
评论: 在2025年IEEE自动语音识别与理解研讨会(ASRU 2025)论文集中
主题: 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[44] arXiv:2509.01336 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: AudioMOS 挑战赛 2025
标题: The AudioMOS Challenge 2025
Wen-Chin Huang, Hui Wang, Cheng Liu, Yi-Chiao Wu, Andros Tjandra, Wei-Ning Hsu, Erica Cooper, Yong Qin, Tomoki Toda
评论: IEEE ASRU 2025
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[45] arXiv:2509.01210 (交叉列表自 eess.SP) [中文pdf, pdf, html, 其他]
标题: 使用32x64超声波换能器-麦克风阵列的高密度MIMO定位技术及实时数据流
标题: High-Density MIMO Localization Using a 32x64 Ultrasonic Transducer-Microphone Array with Real-Time Data Streaming
Rens Baeyens, Dennis Laurijssen, Jan Steckel, Walter Daems
评论: 已接受发表于IEEE IUS 2025
主题: 信号处理 (eess.SP) ; 音频与语音处理 (eess.AS)
[46] arXiv:2509.01200 (交叉列表自 cs.CL) [中文pdf, pdf, html, 其他]
标题: SimulMEGA:MoE路由器是同时语音翻译的高级政策制定者
标题: SimulMEGA: MoE Routers are Advanced Policy Makers for Simultaneous Speech Translation
Chenyang Le, Bing Han, Jinshun Li, Songyong Chen, Yanmin Qian
主题: 计算与语言 (cs.CL) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[47] arXiv:2509.01153 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: EZhouNet:一种基于图神经网络和锚定区间的呼吸音事件检测框架
标题: EZhouNet:A framework based on graph neural network and anchor interval for the respiratory sound event detection
Yun Chu, Qiuhao Wang, Enze Zhou, Qian Liu, Gang Zheng
期刊参考: 生物医学信号处理与控制 2026-02 | 期刊文章
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[48] arXiv:2509.00988 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 一种统一的去噪和适应框架用于自监督的孟加拉语方言自动语音识别
标题: A Unified Denoising and Adaptation Framework for Self-Supervised Bengali Dialectal ASR
Swadhin Biswas, Imran, Tuhin Sheikh
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[49] arXiv:2509.00979 (交叉列表自 cs.ET) [中文pdf, pdf, html, 其他]
标题: 基于物联网的移动节点噪声监测用于智慧城市
标题: IoT-based Noise Monitoring using Mobile Nodes for Smart Cities
Bhima Sankar Manthina (1), Shreyash Gujar (1), Sachin Chaudhari (1), Kavita Vemuri1 (1), Shivam Chhirolya (2) ((1) International Institute of Information Technology-Hyderabad (IIIT-H), India, (2) <a href="http://Prezent.AI" rel="external noopener nofollow" class="link-external link-http">this http URL</a>, India)
主题: 新兴技术 (cs.ET) ; 机器学习 (cs.LG) ; 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[50] arXiv:2509.00914 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: TinyMusician:基于知识蒸馏和混合精度量化的设备端音乐生成
标题: TinyMusician: On-Device Music Generation with Knowledge Distillation and Mixed Precision Quantization
Hainan Wang, Mehdi Hosseinzadeh, Reza Rawassizadeh
评论: 12页正文内容,5幅图
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
总共 86 条目 : 1-50 51-86
显示最多 50 每页条目: 较少 | 更多 | 所有
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号