摘要
目前针对说话人识别的攻击需要对音频注入长时间的扰动,因此容易被机器或者管理人员发现提出了一种新颖的基于单"音频像素"扰动的针对说话人识别的隐蔽攻击.该攻击利用了差分进化算法不依赖于模型的黑盒特性和不依赖梯度信息的搜索模式,克服了已有攻击中扰动时长无法被约束的问题,实现了使用单"音频像素"扰动的有效攻击.特别地,设计了 一种基于音频段-音频点-扰动值多元组的候选点构造模式,针对音频数据的时序特性,解决了在攻击方案中差分进化算法的候选点难以被描述的问题攻击在LibriSpeech数据集上针对60个人的实验表明这一攻击能达到100%的成功率还开展了大量的实验探究不同条件(如性别、数据集、说话人识别方法等)对于隐蔽攻击性能的影响.上述实验的结果为进行有效地攻击提供了指导.同时,提出了分别基于去噪器、重建算法和语音压缩的防御思路.
基金项目
国家重点研发计划项目(2020AAA0107700)
国家自然科学基金(62032021)
国家自然科学基金(61772236)
国家自然科学基金(61972348)
浙江省重点研发计划项目(2019C03133)
浙江省引进培育领军型创新创业团队项目(2018R01005)
阿里巴巴-浙江大学前沿技术联合研究中心项目()
网络空间国际治理研究基地项目()