Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs.SD

帮助 | 高级搜索

声音

2025年05月 的作者和标题

总共 420 条目 : 1-50 51-100 101-150 151-200 ... 401-420
显示最多 50 每页条目: 较少 | 更多 | 所有
[1] arXiv:2505.00550 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 弥合文化和数字鸿沟:全球南方公平音乐教育的低延迟JackTrip框架
标题: Bridging Cultural and Digital Divides: A Low-Latency JackTrip Framework for Equitable Music Education in the Global South
Tiange Zhou, Marco Bidin
主题: 声音 (cs.SD) ; 社会与信息网络 (cs.SI)
[2] arXiv:2505.00579 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 语音克隆:综合调查
标题: Voice Cloning: Comprehensive Survey
Hussam Azzuni, Abdulmotaleb El Saddik
评论: 26页,7幅图
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[3] arXiv:2505.00750 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: GVPT -- 用于引导视觉音高跟踪的软件
标题: GVPT -- A software for guided visual pitch tracking
Hyunjin Cho, Farhad Tabasi, Jeremy D. Greenlee, Rahul Singh
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[4] arXiv:2505.00839 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: SMSAT:面向灵性冥想的情感和生理建模的多模态声学数据集及深度对比学习框架
标题: SMSAT: A Multimodal Acoustic Dataset and Deep Contrastive Learning Framework for Affective and Physiological Modeling of Spiritual Meditation
Ahmad Suleman, Yazeed Alkhrijah, Misha Urooj Khan, Hareem Khan, Muhammad Abdullah Husnain Ali Faiz, Mohamad A. Alawad, Zeeshan Kaleem, Guan Gui
主题: 声音 (cs.SD) ; 社会与信息网络 (cs.SI) ; 音频与语音处理 (eess.AS)
[5] arXiv:2505.01369 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: Binamix -- 用于生成双耳音频数据集的Python库
标题: Binamix -- A Python Library for Generating Binaural Audio Datasets
Dan Barry, Davoud Shariat Panah, Alessandro Ragano, Jan Skoglund, Andrew Hines
评论: 接受在2025年第158届音频工程学会 convention 上演讲
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[6] arXiv:2505.01880 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 基于渐进式音频-语言协同学习网络的弱监督音频时间篡改定位
标题: Weakly-supervised Audio Temporal Forgery Localization via Progressive Audio-language Co-learning Network
Junyan Wu, Wenbo Xu, Wei Lu, Xiangyang Luo, Rui Yang, Shize Guo
评论: 9页,5个图。本文已被IJCAI2025接受。
主题: 声音 (cs.SD) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[7] arXiv:2505.02180 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: MaskClip:可拆卸夹式压电传感器,用于感测口罩表面振动,实现实时抗噪语音输入
标题: MaskClip: Detachable Clip-on Piezoelectric Sensing of Mask Surface Vibrations for Real-time Noise-Robust Speech Input
Hirotaka Hiraki, Jun Rekimoto
评论: 增强人类 2025
主题: 声音 (cs.SD) ; 硬件架构 (cs.AR) ; 人机交互 (cs.HC) ; 音频与语音处理 (eess.AS)
[8] arXiv:2505.03186 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: CoGenAV:通过对比生成同步的多功能视听表征学习
标题: CoGenAV: Versatile Audio-Visual Representation Learning via Contrastive-Generative Synchronization
Detao Bai, Zhiheng Ma, Xihan Wei, Liefeng Bo
主题: 声音 (cs.SD) ; 计算机视觉与模式识别 (cs.CV) ; 音频与语音处理 (eess.AS)
[9] arXiv:2505.03193 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 基于滑动频谱特征和智能推理驱动的音频同步隐写检测及分布式引导推理模型研究
标题: A study on audio synchronous steganography detection and distributed guide inference model based on sliding spectral features and intelligent inference drive
Wei Meng
评论: 本文提出了一种新颖的框架,用于使用滑动频谱特征和分布式推理模型检测短视频音频流中的隐写术内容,结合了STFT分析、基于熵的同步和深度学习驱动的解码策略。
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 密码学与安全 (cs.CR) ; 音频与语音处理 (eess.AS)
[10] arXiv:2505.03228 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: MGFF-TDNN:一种用于说话人验证的多粒度特征融合TDNN模型,带有深度可分离模块
标题: MGFF-TDNN: A Multi-Granularity Feature Fusion TDNN Model with Depth-Wise Separable Module for Speaker Verification
Ya Li, Bin Zhou, Bo Hu
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[11] arXiv:2505.03244 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 基于检索增强生成的高保真音效合成 SonicRAG
标题: SonicRAG : High Fidelity Sound Effects Synthesis Based on Retrival Augmented Generation
Yu-Ren Guo, Wen-Kai Tai
评论: 8页,5个图
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[12] arXiv:2505.03273 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: SepALM:音频语言模型是鲁棒语音分离的错误纠正器
标题: SepALM: Audio Language Models Are Error Correctors for Robust Speech Separation
Zhaoxi Mu, Xinyu Yang, Gang Wang
评论: 收录于IJCAI 2025
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[13] arXiv:2505.03314 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 具有可学习小波的 Mamba-扩散模型用于可控的符号音乐生成
标题: Mamba-Diffusion Model with Learnable Wavelet for Controllable Symbolic Music Generation
Jincheng Zhang, György Fazekas, Charalampos Saitis
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[14] arXiv:2505.03337 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 逆向鼓机:通过联合转录和分析-综合进行源分离
标题: The Inverse Drum Machine: Source Separation Through Joint Transcription and Analysis-by-Synthesis
Bernardo Torres (S2A, IDS), Geoffroy Peeters (S2A, IDS), Gael Richard (S2A, IDS)
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS) ; 信号处理 (eess.SP) ; 机器学习 (stat.ML)
[15] arXiv:2505.03442 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 基于潜在表示对齐和余弦距离的语音去噪知识蒸馏
标题: Knowledge Distillation for Speech Denoising by Latent Representation Alignment with Cosine Distance
Diep Luong, Mikko Heikkinen, Konstantinos Drossos, Tuomas Virtanen
主题: 声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[16] arXiv:2505.04113 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 通过偏好对齐在不同领域中推进零样本文本到语音的可理解性
标题: Advancing Zero-shot Text-to-Speech Intelligibility across Diverse Domains via Preference Alignment
Xueyao Zhang, Yuancheng Wang, Chaoren Wang, Ziniu Li, Zhuo Chen, Zhizheng Wu
评论: 已被ACL 2025接受
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[17] arXiv:2505.04451 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 基于卷积神经网络和常Q变换的自动音乐转录
标题: Automatic Music Transcription using Convolutional Neural Networks and Constant-Q transform
Yohannis Telila, Tommaso Cucinotta, Davide Bacciu
评论: 6页
期刊参考: 第三届国家CINI人工智能会议(Ital-IA 2023)
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[18] arXiv:2505.04457 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: Miipher-2:适用于百万小时规模数据恢复的通用语音恢复模型
标题: Miipher-2: A Universal Speech Restoration Model for Million-Hour Scale Data Restoration
Shigeki Karita, Yuma Koizumi, Heiga Zen, Haruko Ishikawa, Robin Scheibler, Michiel Bacchiani
评论: 被IEEE WASPAA2025接受
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[19] arXiv:2505.04621 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 音频的分数蒸馏采样:源分离、合成及更多
标题: Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond
Jessie Richter-Powell, Antonio Torralba, Jonathan Lorraine
评论: 访问项目网站:https://research.nvidia.com/labs/toronto-ai/Audio-SDS/
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[20] arXiv:2505.04728 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 听力学中的数据标准:社区观点和实施考虑的混合方法探索
标题: Data Standards in Audiology: A Mixed-Methods Exploration of Community Perspectives and Implementation Considerations
Charlotte Vercammen, Antje Heinrich, Christophe Lesimple, Alessia Paglialonga, Jan-Willem A. Wasmann, Mareike Buhl
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS) ; 医学物理 (physics.med-ph)
[21] arXiv:2505.04885 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 一种用于沉浸式有声书制作的多智能体人工智能框架:通过空间音频和神经叙述
标题: A Multi-Agent AI Framework for Immersive Audiobook Production through Spatial Audio and Neural Narration
Shaja Arul Selvamani, Nia D'Souza Ganapathy
主题: 声音 (cs.SD) ; 人机交互 (cs.HC) ; 多智能体系统 (cs.MA) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[22] arXiv:2505.05055 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 如何推断MIDI表演中的重复结构
标题: How to Infer Repeat Structures in MIDI Performances
Silvan Peter, Patricia Hu, Gerhard Widmer
评论: 3页,1幅图,1个表格,将于2025年音乐编码大会发表
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[23] arXiv:2505.05077 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 混响Miipher:生成语音恢复与混响特性可控性相结合
标题: ReverbMiipher: Generative Speech Restoration meets Reverberation Characteristics Controllability
Wataru Nakata, Yuma Koizumi, Shigeki Karita, Robin Scheibler, Haruko Ishikawa, Adriana Guevara-Rukoz, Heiga Zen, Michiel Bacchiani
评论: 5页,5图
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[24] arXiv:2505.05078 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 将实时钢琴转录与符号级跟踪相结合,实现精准、稳健的乐谱跟踪
标题: Pairing Real-Time Piano Transcription with Symbol-level Tracking for Precise and Robust Score Following
Silvan Peter, Patricia Hu, Gerhard Widmer
评论: 5页,3个表格,2个伪代码,将于2025年声音与音乐计算会议发表
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[25] arXiv:2505.05335 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: FLAM:帧级语言-音频建模
标题: FLAM: Frame-Wise Language-Audio Modeling
Yusong Wu, Christos Tsirigotis, Ke Chen, Cheng-Zhi Anna Huang, Aaron Courville, Oriol Nieto, Prem Seetharaman, Justin Salamon
评论: 录用通知:ICML 2025 V2版已接受,修正了公式15和公式17中的小错误。
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[26] arXiv:2505.05654 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 面向稀疏且可解释的音频编解码器
标题: Toward a Sparse and Interpretable Audio Codec
John Vinyard
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[27] arXiv:2505.05940 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 非线性弦、膜和板的快速可微模态模拟
标题: Fast Differentiable Modal Simulation of Non-linear Strings, Membranes, and Plates
Rodrigo Diaz, Mark Sandler
评论: 已被接受参加DAFx 2025会议
主题: 声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS) ; 计算物理 (physics.comp-ph)
[28] arXiv:2505.06042 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 基于有限数据学习音乐音频表示
标题: Learning Music Audio Representations With Limited Data
Christos Plachouras, Emmanouil Benetos, Johan Pauwels
评论: 在ICASSP 2025上展示
主题: 声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[29] arXiv:2505.06766 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 超越身份:深度伪造音频检测的通用方法
标题: Beyond Identity: A Generalizable Approach for Deepfake Audio Detection
Yasaman Ahmadiadli, Xiao-Ping Zhang, Naimul Khan
评论: 提交给IEEE生物识别、行为和身份科学交易期刊
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS) ; 信号处理 (eess.SP)
[30] arXiv:2505.06803 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 连接耳朵和眼睛:分析音频和视觉大语言模型在可见声音识别中对人类的响应并利用跨模态蒸馏减少其感官差距
标题: Bridging Ears and Eyes: Analyzing Audio and Visual Large Language Models to Humans in Visible Sound Recognition and Reducing Their Sensory Gap via Cross-Modal Distillation
Xilin Jiang, Junkai Wu, Vishal Choudhari, Nima Mesgarani
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[31] arXiv:2505.07235 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 多频带频率重建用于神经心理声学编码
标题: Multi-band Frequency Reconstruction for Neural Psychoacoustic Coding
Dianwen Ng, Kun Zhou, Yi-Wen Chao, Zhiwei Xiong, Bin Ma, Eng Siong Chng
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[32] arXiv:2505.07280 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 基于 Spotify 特征和音频波形光谱图的卷积神经网络预测音乐 track 流行度
标题: Predicting Music Track Popularity by Convolutional Neural Networks on Spotify Features and Spectrogram of Audio Waveform
Navid Falah, Behnam Yousefimehr, Mehdi Ghatee
评论: 12页,6个图,4个表格
主题: 声音 (cs.SD) ; 人工智能 (cs.AI)
[33] arXiv:2505.07365 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 多域音频问答:迈向DCASE 2025挑战中的声学内容推理
标题: Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge
Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan Catanzaro
评论: 预印本。DCASE 2025音频问答挑战:https://dcase.community/challenge2025/task-audio-question-answering
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 计算与语言 (cs.CL) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[34] arXiv:2505.07701 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 轻量级端到端文本到语音合成技术在低资源设备上的应用
标题: Lightweight End-to-end Text-to-speech Synthesis for low resource on-device applications
Biel Tura Vecino, Adam Gabryś, Daniel Mątwicki, Andrzej Pomirski, Tom Iddon, Marius Cotescu, Jaime Lorenzo-Trueba
评论: 作为2023年SSW会议论文发表
期刊参考: 第12届ISCA语音合成研讨会,2023年
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[35] arXiv:2505.07709 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: ISAC:一种可逆且稳定的听觉滤波器组,具有可定制核函数以集成机器学习
标题: ISAC: An Invertible and Stable Auditory Filter Bank with Customizable Kernels for ML Integration
Daniel Haider, Felix Perfler, Peter Balazs, Clara Hollomey, Nicki Holighaus
评论: 已被2025年IEEE采样理论与应用国际会议(SampTA)接受
主题: 声音 (cs.SD) ; 机器学习 (cs.LG)
[36] arXiv:2505.08175 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 快速文本到音频的对抗式后训练
标题: Fast Text-to-Audio Generation with Adversarial Post-Training
Zachary Novack, Zach Evans, Zack Zukowski, Josiah Taylor, CJ Carr, Julian Parker, Adnan Al-Sinan, Gian Marco Iodice, Julian McAuley, Taylor Berg-Kirkpatrick, Jordi Pons
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 机器学习 (cs.LG) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[37] arXiv:2505.08203 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 不走寻常路:零样本符号音乐编辑
标题: Not that Groove: Zero-Shot Symbolic Music Editing
Li Zhang
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL) ; 音频与语音处理 (eess.AS)
[38] arXiv:2505.08681 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 基于 Mamba 的半监督歌唱旋律提取的置信二值正则化网络
标题: A Mamba-based Network for Semi-supervised Singing Melody Extraction Using Confidence Binary Regularization
Xiaoliang He, Kangjie Dong, Jingkai Cao, Shuai Yu, Wei Li, Yi Yu
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[39] arXiv:2505.09091 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: DPN-GAN:用于高保真音频合成的生成对抗网络中诱导周期性激活
标题: DPN-GAN: Inducing Periodic Activations in Generative Adversarial Networks for High-Fidelity Audio Synthesis
Zeeshan Ahmad, Shudi Bao, Meng Chen
期刊参考: IEEE Access, 卷 13, 第 69324-69340 页, 2025
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[40] arXiv:2505.09304 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 基于一次性学习的自适应噪声鲁棒关键词检测
标题: Adaptive Noise Resilient Keyword Spotting Using One-Shot Learning
Luciano Sebastian Martinez-Rau, Quynh Nguyen Phuong Vu, Yuxuan Zhang, Bengt Oelmann, Sebastian Bader
评论: 预印本提交至IEEE第11届物联网论坛
主题: 声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
[41] arXiv:2505.09325 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: SingNet:迈向大规模、多样化和自然环境下的歌唱语音数据集
标题: SingNet: Towards a Large-Scale, Diverse, and In-the-Wild Singing Voice Dataset
Yicheng Gu, Chaoren Wang, Junan Zhang, Xueyao Zhang, Zihao Fang, Haorui He, Zhizheng Wu
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[42] arXiv:2505.09382 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 语音音色属性检测2025挑战评估计划
标题: The Voice Timbre Attribute Detection 2025 Challenge Evaluation Plan
Zhengyan Sheng, Jinghao He, Liping Chen, Kong Aik Lee, Zhen-Hua Ling
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[43] arXiv:2505.09616 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: SpecWav-Attack:利用 spectrogram 调整大小和 Wav2Vec 2.0 攻击匿名语音
标题: SpecWav-Attack: Leveraging Spectrogram Resizing and Wav2Vec 2.0 for Attacking Anonymized Speech
Yuqi Li, Yuanzhong Zheng, Zhongtian Guo, Yaoxuan Wang, Jianjun Yin, Haojun Fei
评论: 2页,3个图,1个图表
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[44] arXiv:2505.09633 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 检测音乐深度伪造品
标题: Detecting Musical Deepfakes
Nick Sunday
评论: 作为德克萨斯大学奥斯汀分校的课程作业提交。 accompanying代码 可在以下地址获取:https://github.com/nicksunday/deepfake-music-detector
主题: 声音 (cs.SD) ; 机器学习 (cs.LG)
[45] arXiv:2505.09661 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 引入语音音色属性检测
标题: Introducing voice timbre attribute detection
Jinghao He, Zhengyan Sheng, Liping Chen, Kong Aik Lee, Zhen-Hua Ling
评论: 重要:与 arXiv:2505.09382 存在大量文本重叠
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 音频与语音处理 (eess.AS)
[46] arXiv:2505.09784 (交叉列表自 cs.SD) [中文pdf, pdf, 其他]
标题: 固体中声功率传输的理论模型
标题: Theoretical Model of Acoustic Power Transfer Through Solids
Ippokratis Kochliaridis, Michail E. Kiziroglou
评论: 第八届国际微系统研讨会,国际希腊大学
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS) ; 应用物理 (physics.app-ph)
[47] arXiv:2505.10101 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 基于音频驱动的动态视觉生成与神经压缩及StyleGAN2:LAV
标题: LAV: Audio-Driven Dynamic Visual Generation with Neural Compression and StyleGAN2
Jongmin Jung, Dasaem Jeong
评论: 论文被接受于2025年韩国首尔第30届国际电子/新兴艺术研讨会(ISEA 2025),时间:2025年5月23日至29日。
主题: 声音 (cs.SD) ; 人工智能 (cs.AI) ; 图形学 (cs.GR) ; 多媒体 (cs.MM) ; 音频与语音处理 (eess.AS)
[48] arXiv:2505.10511 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 基于物理建模合成的非线性动力学学习使用神经常微分方程
标题: Learning Nonlinear Dynamics in Physical Modelling Synthesis using Neural Ordinary Differential Equations
Victor Zheleznov, Stefan Bilbao, Alec Wright, Simon King
评论: 接受在2025年9月于意大利安科纳举行的第28届国际数字音频效果会议(DAFx25)上发表。
主题: 声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS) ; 计算物理 (physics.comp-ph)
[49] arXiv:2505.10561 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: T2A-反馈:通过细粒度人工智能反馈提升文本到音频生成的基本能力
标题: T2A-Feedback: Improving Basic Capabilities of Text-to-Audio Generation via Fine-grained AI Feedback
Zehan Wang, Ke Lei, Chen Zhu, Jiawei Huang, Sashuai Zhou, Luping Liu, Xize Cheng, Shengpeng Ji, Zhenhui Ye, Tao Jin, Zhou Zhao
评论: ACL 2025
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
[50] arXiv:2505.10879 (交叉列表自 cs.SD) [中文pdf, pdf, html, 其他]
标题: 多阶段课堂 speaker 辨别
标题: Multi-Stage Speaker Diarization for Noisy Classrooms
Ali Sartaz Khan, Tolulope Ogunremi, Ahmed Adel Attia, Dorottya Demszky
主题: 声音 (cs.SD) ; 机器学习 (cs.LG) ; 音频与语音处理 (eess.AS)
总共 420 条目 : 1-50 51-100 101-150 151-200 ... 401-420
显示最多 50 每页条目: 较少 | 更多 | 所有
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号