计算机科学 > 声音
[提交于 2025年7月11日
]
标题: 使用逐段波形反转在环境声音录音中强制语音内容隐私
标题: Enforcing Speech Content Privacy in Environmental Sound Recordings using Segment-wise Waveform Reversal
摘要: 环境声音录音通常包含可理解的语音,这引发了隐私问题,限制了数据的分析、共享和重用。 在本文中,我们介绍了一种方法,使语音不可理解,同时保持声学场景的完整性以及整体音频质量。 我们的方法涉及反转波形段以扭曲语音内容。 通过语音活动检测和语音分离流程来增强这一过程,从而更精确地定位语音。 为了展示所提出方法的有效性,我们考虑了一个三部分的评估协议,用于评估:1)使用词错误率(WER)的语音可理解性,2)使用来自广泛使用的预训练模型的声源分类准确率下降(SCAD)的声源可检测性,以及3)使用Fréchet音频距离(FAD)的音频质量,该距离是通过包含未修改语音的参考数据集计算的。 在由语音和环境声音场景的线性混合组成的模拟评估数据集上的实验表明,我们的方法实现了令人满意的语音可理解性降低(97.9% WER),声源可检测性的最小退化(2.7% SCAD),以及高感知质量(FAD为1.40)。 消融研究进一步突出了流程中每个组件的贡献。 我们还表明,将随机拼接纳入我们的语音内容隐私保护方法可以增强算法对尝试恢复干净语音的鲁棒性,但会略微影响音频质量。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.