摘要
为了推行素质教育,我国开始实行新高考改革。本次改革从简单的文理分科改为了“3+1+2”模式,同时增强了高校专业与高中选科的关联性,如何科学、理性地选择高考科目成为了每一位高中生及家长最为关心的问题。而大数据和互联网可以为学生选科提供一些有效的帮助,因此研究一种适用于新高考选科的推荐方案的具有重大的理论和实际应用价值。 但是推荐系统通常需要收集大量的、多维度的用户数据进行模型训练,若模型受到恶意攻击则会导致数据泄露。因此在考虑模型的推荐效果的同时,还需考虑如何保护训练数据的安全。同时,一个学校的数据量单独训练难以得到最佳性能的推荐模型,因此校际间的数据共享非常重要。而出于对数据隐私安全的考虑,多个数据所有方往往无法直接进行数据交换,数据孤岛问题亟待解决。 根据以上问题,本文主要研究适用于新高考选科背景下的推荐方案及隐私保护方案,具体工作包括以下几部分: (1)以基于用户的推荐算法为依据,提出了一种基于swTabNet模型的选科推荐算法,挖掘用户的隐式特征,预测目标用户未来在所有科目组合的潜在表现,最终返回给用户科学合理的推荐结果。其中,swTabNet模型对原始的TabNet模型进行了改进和优化,提升了神经网络在表格类数据上的表现,解决了不均衡数据影响分类准确率的问题。 (2)对新高考背景下学生选科的现状以及影响学生选科的多个因素进行了分析,结合swTabNet模型的选科推荐算法构建模糊综合评价矩阵,提出了基于swTabNet模型的模糊综合推荐方案。最后通过对比实验,在三个数据集上,从多个评价指标,分别验证了swTabNet模型在不均衡数据集上的有效性、基于SwTabNet的推荐算法在新高考选科推荐上的有效性以及基于swTabNet的模糊综合选科推荐方案的有效性。 (3)为了防止swTabNet模型训练时用户数据泄露,提出了一种基于类别的差分隐私算法(Category-baseddifferentialprivacy,Cdp),并从理论上证明该算法满足差分隐私定义,同时根据该算法设计了Cdp-swTabNet隐私推荐模型。通过实验对比Cdp算法与直接在所有数据上直接添加拉普拉斯噪声的效果,观察使用Cdp算法对整个新高考选科推荐算法输出效用的影响,从推荐效果的有效性和隐私程度两个方面对Cdp-swTabNet隐私推荐模型进行评价,验证了该模型可以有效平衡推荐的准确性和隐私保护质量。 (4)考虑到校际信息共享的重要性以及安全性,结合横向联邦学习技术设计了flCdp-swTabNet隐私推荐模型。在联邦学习框架下,各个参与方使用本地数据各自训练Cdp-swTabNet模型并进行参数更新,再将模型参数与中心服务器交互,以此训练得到flCdp-swTabNet隐私推荐模型。该模型通过联邦学习保证各参与方只交换参数,训练数据不共享,保护了所有参与方的数据安全的同时保证了最终推荐的效果。最终通过实验对比,flCdp-swTabNet隐私推荐模型能够保证联邦训练后的最终模型的有效性与全部数据集中训练的Cdp-swTabNet模型非常接近,在保障各参与方的数安全的同时有效提升了各参与方的准确率。