基于多模态融合的语音分离算法研究与系统设计

刘洋¹

扫码查看

作者信息

1. 山东大学
折叠

摘要

随着互联网的高速发展，人们通过智能设备观看视频的需求日益增加。当视频中包含多个说话人时，人们所听到的声音是不同语音信号的混合，可能会无法清晰倾听每个说话人的语音。为了解决这一问题，可以在视频中加入语音分离技术来播放特定说话人的语音并屏蔽无关的干扰声音。语音分离技术能够从多源混合信号中分离出每个说话人的语音，在多个应用场景中为人们提供便利，从而引起越来越多学者的关注。在早期，人们通常采取单模态的方式进行语音分离算法的研究，近年来视觉信息被证明可以给语音分离的性能带来提升，视听多模态语音分离方法已经成为了一个新的研究趋势。另外，随着深度学习的不断发展，使用深度学习实现多模态语音分离已成为目前热门的研究方向，许多基于深度学习的视听语音分离算法被提出。然而，如何有效提取并处理声音与视觉特征，以及如何将算法应用到实际生活中仍然是人们所面临的问题。针对以上现状，本论文提出了一种基于两阶段特征融合的视听语音分离算法，通过实验验证了此算法的有效性，并以此算法为基础设计并实现了一个视频中说话人语音分离系统。本论文的主要研究内容如下: (1)本论文提出了一种基于两阶段特征融合的视听语音分离算法。考虑到不同频率声音信号对应的最佳特征提取器不同，该算法创新性地使用了不同的特征提取网络分别提取高频与低频声音特征，并将声音的高频特征与低频特征进行融合，实现了第一阶段的特征融合。将高低频声音特征送入改进后的时间卷积网络以生成最终的声音特征。另外，使用基于卷积神经网络的算法提取视觉特征，并将声音特征与视觉特征进行融合，实现第二阶段的特征融合。 (2)对于提出的基于两阶段特征融合的视听语音分离算法，本论文在GRID数据集上进行实验，验证了算法在语音分离任务中的先进性，同时还研究了算法中两个阶段的融合对语音分离性能的影响，并对网络复杂度进行了分析。 (3)基于提出的视听语音分离算法，本论文设计并实现了一个视频中语音分离系统。首先根据系统的设计背景与需求，对系统的整体架构进行设计，其中包含了4个模块的功能实现。然后设计并实现了一个可展示的界面方便用户使用，并对系统的使用流程与效果进行说明与展示。当使用此系统观看视频时，用户通过点击人脸选择感兴趣的说话人，系统检测到鼠标点击事件后通过人脸检测技术判断用户所选择的说话人并播放对应的干净语音，同时使用方框标记用户所点击的人脸。系统适用于任意时长的视频，操作简单，能够在人们观看视频时提供便利。

关键词

语音分离/特征融合/时间卷积网络/卷积神经网络

引用本文复制引用

授予学位

硕士

学科专业

控制工程

导师

魏莹

学位年度

2022

学位授予单位

山东大学

语种

中文

中图分类号

段落导航