摘要
随着信息技术的发展,抖音、快手等短视频平台被越来越多的人作为娱乐消遣的工具。与传统的视频平台不同,人人都可以在短视频平台分享自己的生活。因此每天都有数千万的短视频发布,面对类目如此繁多的短视频内容,很多时候用户也不确定自己想看什么,形成了严重的信息过载。如何把用户喜欢的内容精准推荐,是短视频平台要解决的重要问题。本文的主要研究工作如下: 1.研究了主流的几种推荐排序算法,分析了其各自在短视频推荐业务上的优缺点。短视频业务流量基本符合二八定律,即头部20%的视频占据了至少80%的流量,而协同过滤等传统的推荐算法在面对稀疏数据时表现较差。基于机器学习的算法,虽然可以对海量的视频内容进行分类推荐,但其对交叉特征的敏感度较低,推荐准确度不高。如Wide&Deep等基于深度学习的推荐算法虽然可以学习高维度交叉特征,但会忽略低阶特征导致准确率降低。 2.重点研究了混合机器学习模型XDeepFM与TransFormer模型,该模型既包含了传统的线性回归算法,还具有深度学习对高纬度交叉特征的提取。非常适合应用于短视频推荐。同时针对短视频业务场景改进了 XDeepFM模型。因为该模型在非结构化特征上的效果不好,短视频的介绍和封面等信息都属于非结构化数据,又是非常重要的特征,本次研究对其引入TransFormer的注意力机制来学习这些非结构化特征,进行联合训练。 3.在召回部分采用了三分路召回策略。首先,使用视频业内惯用的热度召回策略,保证高热度高时效性内容的召回。接着使用基于深度学习的DSSM双塔召回算法,确保召回用户感兴趣的非热门内容,避免某些冷启动视频以及本身特征稀疏的视频被遗漏,同时该算法最大的优点是在面对海量离线数据时可以并行计算,有速度优势。最后使用传统的协同过滤召回作为补充。 4.进行多次实验,与Wide&Deep、DIN、未改进的XDeepFM等模型对比,计算各个模型的AUC/ACC/Loss等指标,调优并验证了该改进算法模型的有效性。 5.在Spark上搭建改进后的推荐系统,通过实验对比论证改进的有效性,并且对时效性等指标再次进行检验。 本次研究从短视频推荐实际场景出发,分别对召回和排序两部分进行优化,通过实验方式验证了改进的有效性后搭建推荐系统实体,最终取得了满意的效果。