摘要
视频是当今时代信息传输的主要载体之一。视频流量快速增长,传统的文本传输方式已经无法满足需求,流式传输由此诞生。经典流式传输系统中,服务端将视频切分成等时长的视频块,以不同的码率进行编码并存储,客户端根据需要从服务端请求视频块。码率自适应算法是流式传输中保证高质量视频的关键技术,其基于现有的信息,以提高用户的体验质量为目标为客户端动态选择码率。虽然目前已经有大量关于码率自适应算法的研究,但存在带宽估计方法普适性差、参数设置困难等问题。此外,现有算法的性能与最优性能还有较大差距,存在进一步的提升空间。 针对上述问题,本文设计了两种带宽估计方案,其结果将作为后续码率自适应算法决策的依据。基于GRU网络的带宽估计方案根据过去时刻收集到的带宽信息,采用GRU网络来预测未来时刻的网络带宽。基于概率与统计的带宽估计方案则认为网络带宽是分段平稳的高斯过程,以在线变化点检测算法为基础,利用贝叶斯定理和高斯分布统计特性推导出了未来时刻网络带宽的均值和方差。 获取带宽估计结果后,本文提出了一种深度强化学习码率自适应算法。其将带宽估计结果、当前时刻播放缓冲区的已使用量、下一时刻视频块的大小等信息作为状态,用户体验质量作为奖励函数,选择的码率视为动作构建了强化学习模型,通过神经网络获得了码率自适应策略。实验结果表明,基于带宽估计的深度强化学习码率自适应算法优于其他经典算法。 为了让性能得到进一步的提升,本文提出了双策略思想,根据网络带宽的均值和方差将网络状况划分为强网络和弱网络,通过在线学习分别为这两种网络状况训练深度强化学习码率自适应算法,以获得激进的和保守的两种策略。对比分析发现,双策略可以有效提高算法性能。与其他经典算法相比,基于双策略的深度强化学习码率自适应算法平均体验质量提高了2.52%~21.98%。