摘要
使用重录语音冒充他人身份会为社会安全带来严重威胁.但是,目前对于重录语音检测的研究仍相对较少.已有的重录语音检测方法一般集中于传统的信号处理方法,其特征提取的算法较为复杂,具有较大的局限性.为此,提出一种基于卷积神经网络的重录语音检测算法.所提出的网络结构依据语音信号的时频特征进行特殊设计,与时频图的特征分布特点高度契合,能将训练参数分配到更合理的地方,从而能使用更有效的特征来训练更紧凑的参数,因而大大降低了模型过拟合风险.为了验证该算法的性能以及通用性,采用不同录制设备、录制环境及录制距离的重录语音对算法进行测试.实验结果表明,该算法对不同设备和场景下录制的语音均达到了99.8%以上的检测率.由于采用时长0.2秒极短语音段作为检测数据得到以上的准确率,说明算法在实际应用场景中具备广泛的适用性.
基金项目
国家自然科学基金(61672173)
广东省普通高校特色创新项目(2015KTSCX083)