结合双流网络和双向五元组损失的跨人脸-语音匹配

Cross Face-Voice Matching via Double-Stream Networks and Bi-Quintuple Loss

柳欣 ¹王锐 ²钟必能 ³王楠楠⁴

扫码查看

作者信息

1. 华侨大学计算机科学与技术学院福建厦门 361021;综合业务网理论及关键技术国家重点实验室(西安电子科技大学)西安 710071;厦门市计算机视觉与模式识别重点实验室(华侨大学)福建厦门 361021
2. 华侨大学计算机科学与技术学院福建厦门 361021;厦门市计算机视觉与模式识别重点实验室(华侨大学)福建厦门 361021
3. 广西师范大学计算机科学与信息工程学院广西桂林 541004
4. 综合业务网理论及关键技术国家重点实验室(西安电子科技大学)西安 710071
折叠

摘要

面部视觉信息和语音信息是人机交互过程中最为直接和灵活的方式,从而基于智能方式的人脸和语音跨模态感知吸引了国内外研究学者的广泛关注.然而,由于人脸-语音样本的异质性以及语义鸿沟问题,现有方法并不能很好地解决一些难度比较高的跨人脸-语音匹配任务.提出了一种结合双流网络和双向五元组损失的跨人脸-语音特征学习框架,该框架学到的特征可直接用于4种不同的跨人脸-语音匹配任务.首先,在双流深度网络顶端引入一种新的权重共享的多模态加权残差网络,以挖掘人脸和语音模态间的语义关联;接着,设计了一种融合多种样本对构造策略的双向五元组损失,极大地提高了数据利用率和模型的泛化性能;最后,在模型训练中进行ID分类学习,以保证跨模态表示的可分性.实验结果表明,与现有方法相比,能够在4个不同跨人脸-语音匹配任务上取得效果的全面提升,某些评价指标效果提升近5％.

关键词

人脸-语音关联/跨模态感知/双流网络/双向五元组损失/加权残差网络

引用本文复制引用

基金项目

国家自然科学基金(61673185)

国家自然科学基金(61922066)

国家自然科学基金(61972167)

综合业务网理论及关键技术国家重点实验室基金(ISN20-11)

福建省自然科学基金(2020J01084)

之江实验室开放课题(2021KH0AB01)

出版年

2022

计算机研究与发展

中国科学院计算技术研究所中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心

影响因子：2.649

ISSN：1000-1239

参考文献量2

段落导航