面向VoIP的低复杂度压缩语音感知编解码方法研究

李俊鑫¹

扫码查看

作者信息

1. 广东工业大学
折叠

摘要

随着现代科学技术的高速发展，语音通话技术的进步使得人们的交流变得越来越方便。VoIP（Voice over Internet Protocol）是借助网络将语音信号进行打包传输的技术。近年来，得益于互联网技术的高速发展，VoIP技术因其相比传统电话具有更低的成本与良好扩展性的优势，而受到越来越广泛的应用。然而由于VoIP技术是利用网络进行数据传输的，因此难免会出现网络拥堵等不稳定性因素，造成通话语音数据包丢失、延迟等问题，从而导致语音通话质量欠佳。尽管传统的编解码方法如交织技术等能够恢复丢失的数据包，但是其代价是需要损失一部分的带宽，近年来有研究表明压缩感知技术能够基于部分的数据来精确恢复丢失的数据，因此该技术在VoIP领域有着广阔的研究前景，然而经典的压缩感知方法依然存在着解码复杂度较高的缺点，因此迫切需要发展一种低复杂度的压缩感知解码方法来以较低的延迟保证VoIP的通话语音质量。本文的主要研究内容如下：（1）分析了语音信号在不同稀疏表示方法下的稀疏特性，本文提出了一种能进一步提高语音信号的稀疏表示能力的字典学习方法。在求解稀疏系数的迭代过程中，通过一次选择多个支撑能够降低一定的计算量，得到更快速的稀疏编码方法。在字典更新阶段通过固定稀疏编码阶段求得的系数更新每一列字典原子，实验证明通过本文的字典学习方法得到的字典相比传统的固定字典在信号稀疏表示能力上具有一定的优势，从而能够得到更好的重构效果。（2）传统的语音编解码方法往往具有较高的复杂度，而压缩感知方法具有编码简单的特点，将压缩感知方法应用于语音编解码方法中，利用重构速度较快的In-crowd算法作为语音通信的解码端，能够得到较低复杂度的编解码方法，更利于语音的实时通信。为了进一步满足实时通信对于语音质量和传输速度的要求，对In-crowd算法进行了一系列改进：首先根据第三章的分析得知语音信号在小波基下会将信号大部分能量集中于低频部分，因此利用这个特点，将低频部分的信息作为先验知识对In-crowd算法进行改进，无须寻找低频部分的支撑位置，从而减少一部分计算量，并且提高了重构精度。同时由于传统的基追踪方法求解凸优化问题具有较高的计算复杂度，本文利用迭代软阈值算法求解In-crowd算法的优化解，能够使得重构速度得到进一步的提升。通过一系列实验证明，本文提出的语音编解码框架在使用改进的低复杂度编解码方法时可以获得快速的信号重构，而在使用本文的字典学习方法得到的字典结合压缩感知经典算法时，虽然重构速度上没有优势，但是可以得到更好的语音质量。在现实中不同的网络环境下对于重构速度和重构精度的要求需要有不同的优先考虑，本文的语音编解码方法对于在实际应用场景下具有一定的优势与可行性。

关键词

语音信号/编解码方法/压缩感知/稀疏表示

引用本文复制引用

授予学位

硕士

学科专业

电子与通信工程

导师

张军

学位年度

2021

学位授予单位

广东工业大学

语种

中文

中图分类号

段落导航