首页|基于数据挖掘的广告点击率预测

基于数据挖掘的广告点击率预测

张言迪

基于数据挖掘的广告点击率预测

张言迪1
扫码查看

作者信息

  • 1. 山东师范大学
  • 折叠

摘要

随着科技的进步和互联网的普及,互联网广告发展态势如火如茶,随处可见。展示广告作为其主流类型,是以文字、图片、动画、视频等多种形式展示在网页或APP的广告位上。而广告点击率(CTR)是广告主参与广告竞价的首要参考指标,也是媒体进行广告排序的重要依据,其作用和价值不言而喻。本文通过数据预处理与特征工程、模型构建与超参数优化两个阶段,最终建立展示广告点击率预测的Stacking融合模型,经验证,该融合模型在测试集上的Logloss和AUC值均显著优于单一模型,有效提升了预测性能。 在实证环节,首先需要对原始数据集进行数据预处理及特征工程。通过利用可视化作图对特征的分布规律进行描述性分析,初步探索出具有高影响力的特征。数据预处理,即对不同类型的特征进行包括过滤无效特征、缺失值处理和特征编码等在内的数据清洗工作,有效减少数据噪音。接着进行特征工程,先基于对广告业务的理解和专业统计知识进行特征构造,再基于Stacking的思想对构造的不同特征子集分别进行特征融合,最后通过利用LightGBM模型进行特征选择完成对高维特征的有效提取,为之后建立的分类器能够达到更佳的性能奠定基础。 然后针对特征工程优化后的特征集,分别构建Logistic回归、随机森林及LightGBM模型,并选择不同的搜索方法来寻找最优的参数组合。根据LogLoss和AUC两个模型评价指标对比三种学习器的预测性能,将随机森林和LightGBM作为初级模型,Logistic回归作为次级模型,构建基于Stacking的融合模型,进一步提升模型预测性能,验证本文模型的有效性。同时根据LightGBM模型输出的特征重要性得分,对影响广告点击率的重要因素进行原因分析,对展示广告点击率的预测问题有一定的参考意义。

关键词

广告点击率预测/数据挖掘/Stacking融合模型

引用本文复制引用

授予学位

硕士

学科专业

应用统计

导师

赵强

学位年度

2020

学位授予单位

山东师范大学

语种

中文

中图分类号

F7
段落导航相关论文