首页|网络社区语音互动服务关键支撑技术研发

网络社区语音互动服务关键支撑技术研发

扫码查看
本课题主要研究内容为网络社区语音服务的智能语音、互联网大规模群体语音负载均衡、频道监测预警及用户信息智能分析等关键技术,为大规模网络社区语音互动服务平台和管控系统开发提供有效技术支撑。 为满足大规模网络社区语音服务的电信级语音服务质量、大规模实时语音通信、高可用分布式云服务、群体语音负载均衡等要求,以及为满足大规模网络社区语音互动管控对频道监测预警和用户信息智能分析等要求,本课题开展了“基于卷积神经网络的智能语音分析技术”和“基于高可用分布式云服务的大规模群体语音负载均衡技术”研究、“海量数据的语音敏感信息监测STD技术”和“基于深度学习的用户身份智能验证技术”技术研究。 基于卷积神经网络的智能语音分析技术:通过卷积神经网络与隐马尔科夫模型联合训练的方式,实现对语音的识别,从而将语音转化为文本;对文本进行预处理,实现文本的智能分词;进一步,基于卷积神经网络对预处理后文本进行分类,实现对文本的智能分析;利用语音合成技术将文本转化为语音,进而实现对语音的智能分析。 基于高可用分布式云服务的大规模群体语音负载均衡技术:利用分布式信息处理的思想,将语音训练和识别分布在服务器上、语音特征提取分布在终端;在服务器端用标签对词库进行分类和更新;在嵌入式终端将频域端点检测和特征提取同步进行,结合算法优化、查表和定点实现等措施降低计算时间,并将得到的语音特征通过网络传递给服务器并由服务器进行语音识别计算,最后接收服务器的识别结果;网络服务器和嵌入式终端通过网络互联,实现分布式语音识别系统原型,进而为嵌入式系统分担计算和存储压力,且词库动态更新、具备个性化语音识别能力。 面向海量数据的语音敏感信息检测STD技术:STD(Spoken Term Detection)系统分成预处理与搜索2部分,系统预处理不对查询内容进行假设,只将音频信息转换成中间信息,并基于该中间信息实现快速搜索。系统采用大词汇量连续语音识别(Large Vocabulary Continuous Speech Recognition:LVCSR)系统作为前端,通过对中间信息的快速搜索实现语音智能识别。 基于深度学习的用户身份智能验证技术:用户信息智能验证通过对说话人语音和数据库中登记的声纹作比较,对用户进行身份校验和鉴别,从而确定该说话人是否为本人或者为集群中的哪个人,即声纹识别。声纹识别过程分为三个阶段:前端特征提取、建模和后端评分或分类。

陈拥权、季乐、李建中、鲁加旺

展开 >

合肥寰景信息技术有限公司

网络社区 语音识别 负载均衡 频道监测

126

进展报告

2016-01-10

2012