智能环境下基于音频视频信息融合的多说话人跟踪

郑景润¹

扫码查看

作者信息

1. 兰州理工大学
折叠

摘要

人类大脑能够对来自各个感官的多源传感信息进行融合加工，帮助人们在复杂的环境下准确跟踪和识别事物。在智能会议环境中，对说话人进行跟踪是人机交互的一个重大研究课题，如何借鉴大脑的融合机理，利用多模态传感信息，有效融合同源说话人的语音信息和视频图像信息，从而达到鲁棒准确的跟踪效果，已成为异类信息融合的一个研究热点。本文在充分总结和探讨多源信息融合、视频跟踪、声源定位及滤波算法的研究现状和基本理论的基础上，提出了两种基于多源信息融合的人物跟踪算法。一种是基于多视频特征信息融合的多人物跟踪，另一种是基于音频视频信息融合的说话人跟踪。多视频特征信息融合的多人物跟踪系统，它是利用肤色抗旋转和抗遮挡的特性，通过颜色直方图给出了颜色似然模型；并利用轮廓信息能够较好的反映目标形状的特性，通过边缘梯度搜索策略给出了轮廓似然模型；最后在粒子滤波框架下，融合颜色信息和轮廓信息来跟踪多个人物。在音频视频信息融合的说话入跟踪系统中，结合同源说话人语音和视频图像之间的互补性，利用麦克风时延的声源定位和均值漂移肤色跟踪，分别建立音频模型和视频模型，以重要性粒子滤波为工具，建立融合似然模型和融合重要性函数，从中产生粒子并进行滤波跟踪。同时，采用流程化的闭坏处理框架，并在跟踪过程中引入反馈环节，提高跟踪的准确性和完整性。仿真实验表明，上述信息融合跟踪算法是可行的。基于多视频特征信息融合的多人物跟踪算法对光照及背景变化等干扰都具有一定的鲁棒性。基于音频视频信息融合的说话人跟踪算法可以准确跟踪到会议中的主要发言人，在人物交错、移动、姿态变化等复杂情况下跟踪效果都较好。

关键词

语音识别/目标跟踪/信息融合/声源定位

引用本文复制引用

授予学位

硕士

学科专业

控制理论与控制工程

导师

曹洁

学位年度

2011

学位授予单位

兰州理工大学

语种

中文

中图分类号

段落导航