摘要
点击率预测对计算广告和推荐系统的发展至关重要. 近年来,国内外学者就该问题展开了广泛研究,并取得诸多成果.在模型方面,学者们从浅层、深层两个角度出发构建出各类点击率预测模型,其中表现最为突出的是基于用户兴趣挖掘和基于广告特征交互两类模型. 本文工作主要在于优化第二类模型(对于广告点击的二分类),以提高模型的预测准确性. 通过梳理现有的研究成果发现,基于特征交互的点击率预测模型往往存在神经网络加深导致网络退化以及特征交互学习不够充分的缺陷. 为了解决这些问题,本文通过在Deepamp;Cross模型中引入因子分解机和残差网络的思想,从而构建出新的模型ResF_DCN.该模型的不同模块可以共同学习到不同阶、更有用的特征交互,使点击率预测模型中的特征交互信息被更充分地挖掘出来;不仅如此,本文所提出的模型还能够有效缓解随着网络加深导致其退化的问题,从而提高模型的预测效果. 将本文提出的ResF_DCN模型应用于Criteo和Avazu数据集,实验结果表明, ResF_DCN模型比其他几个经典的点击率预测模型中效果最好的模型在AUC上提升了2.10%-2.62%, Logloss值降低了2.71%-3.17%,因此可以认为ResF_DCN模型在点击率预测任务中有着非常优秀的表现. 为了进一步提升模型的效果,本文还对8个模型运用Stacking进行集成,该方法将7个点击率预测模型的不同组合作为基学习器,通过元学习器对堆叠的预测结果进行再训练. 实验表明,堆叠模型在两个数据集上的效果都有一定程度的提升.由此可见,集成多种表现优异的点击率预测模型能够有效改进单一模型的性能.