基于虚拟对抗训练的合成话音检测方法
杨玲 高勇
自动说话人确认(Automatic Speaker Verification,ASV)技术在日常生活中起着重要作用,同时它也面临着语音合成等欺骗攻击的威胁,因此为ASV系统提供一个有效的合成话音检测方法刻不容缓。近年来,检测任务更加侧重于在真实物理环境下对合成话音展开研究。为了提高模型的鲁棒性,引入虚拟对抗训练对检测任务进行数据增强。实验中在前端提取了多个特征,并在后端采用了SE-Res2net50和ECAPA2D-BL/BG模型。最后还将多个特征,多个模型的打分结果进行融合,提高了总体的检测性能。在逻辑访问场景中,ASVspoof2019挑战赛评估集的串联成本检测代价(tandem Detection Cost Function,t-DCF)和等错率(Equal Error Rate,EER)分别达到0.018 7和0.56%,ASVspoof2021挑战赛评估集的t-DCF和EER分别达到0.307 3和6.05%。