计算机研究与发展2023,Vol.60Issue(11) :2638-2649.DOI:10.7544/issn1000-1239.202220411

基于双向伪标签自监督学习的跨人脸-语音匹配方法

Cross Face-Voice Matching Method via Bi-Pseudo Label Based Self-Supervised Learning

朱明航 柳欣 于镇宁 徐行 郑书凯
计算机研究与发展2023,Vol.60Issue(11) :2638-2649.DOI:10.7544/issn1000-1239.202220411

基于双向伪标签自监督学习的跨人脸-语音匹配方法

Cross Face-Voice Matching Method via Bi-Pseudo Label Based Self-Supervised Learning

朱明航 1柳欣 2于镇宁 1徐行 3郑书凯4
扫码查看

作者信息

  • 1. 华侨大学计算机科学与技术学院 福建厦门 361021;福建省大数据智能与安全重点实验室(华侨大学) 福建厦门 361021
  • 2. 华侨大学计算机科学与技术学院 福建厦门 361021;之江实验室 杭州 311121
  • 3. 电子科技大学计算机科学与工程学院 成都 611731
  • 4. 之江实验室 杭州 311121
  • 折叠

摘要

神经认知科学研究表明,人类大脑在感知语音的过程中常常将结合人脸信息进行跨模态交互分析.然而,现有的跨模态人脸-语音关联方法仍面临着对复杂样本敏感、监督信息缺乏以及语义关联不足等挑战,其主要原因是缺少对潜在共性语义的挖掘.针对这些问题,提出了基于双向伪标签自监督学习的跨模态学习架构,用于人脸-语音关联学习与匹配任务.首先,构建跨模态加权残差网络来学习人脸-语音的跨模态共享嵌入,然后提出一种新颖的双向伪标签关联的自监督学习方法,旨在通过一种模态的潜在语义信息去监督另一个模态的特征学习,从而基于这种交互式跨模态自监督学习能够挖掘到人脸-语音间更紧密的关联.为增加挖掘监督信息的判别性,进一步构建了 2个辅助损失促使来自相同身份的人脸-语音特征更接近,并使来自不同身份的特征更加疏远.基于大量实验验证,相比较于现有方法,在人脸-语音跨模态匹配任务上获得了全面的提升.

关键词

人脸-语音关联/双向伪标签/自监督学习/加权残差网络/潜语义监督

Key words

face-voice association/bi-pseudo label/self-supervised learning/weighted residual network/latent semantic supervision

引用本文复制引用

基金项目

之江实验室开放基金(2021KH0AB01)

国家自然科学基金(61673185)

国家自然科学基金(61976049)

福建省自然科学基金(2020J01083)

福建省自然科学基金(2020J01084)

福建省本科高校教学研究项目(FBJG20220092)

出版年

2023
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
参考文献量2
段落导航相关论文