基于双生成器网络的Data-Free知识蒸馏

Double-Generators Network for Data-Free Knowledge Distillation

张晶 ¹鞠佳良 ¹任永功¹

扫码查看

作者信息

1. 辽宁师范大学计算机与人工智能学院辽宁大连 116081
折叠

摘要

知识蒸馏(knowledge distillation,KD)通过最大化近似输出分布使"教师网络"指导"学生网络"充分训练,成为大规模深度网络近端迁移、部署及应用的重要技术.然而,隐私保护意识增强与传输问题加剧使网络训练数据难以获取.如何在Data-Free的自由环境下,保证压缩网络准确率成为重要的研究方向.Data-Free学生网络学习(data-free learning of student networks,DAFL)模型,建立"教师"端生成器获得与预训练网络分布近似的伪数据集,通过知识蒸馏训练"学生网络".然而,该框架中生成器构建及优化仍存在 2个问题:1)过度信任"教师网络"对缺失真实标签伪样本的判别结果,同时,"教师网络"与"学生网络"优化目标不同,使"学生网络"难以获得准确、一致的优化信息;2)仅依赖于"教师网络"训练损失,导致数据特征多样性缺失,降低"学生网络"泛化性.针对这2个问题,提出双生成器网络架构DG-DAFL(double generators-DAFL),分别建立"教师"与"学生"端生成器并同时优化,实现网络任务与优化目标一致,提升"学生网络"判别性能.进一步,增加双生成器样本分布差异损失,利用"教师网络"潜在分布先验信息优化生成器,保证"学生网络"识别准确率并提升泛化性.实验结果表明,该方法在Data-Free环境中获得了更为有效且更鲁棒的知识蒸馏效果.DG-DAFL方法代码及模型已开源:https://github.com/LNNU-computer-research-526/DG-DAFL.git.

关键词

深度神经网络/知识蒸馏/无数据环境知识蒸馏/对抗生成网络/生成器

引用本文复制引用

基金项目

国家自然科学基金(61902165)

国家自然科学基金(61976109)

大连市科技创新基金(2018J12GX047)

教育部人文社会科学研究规划基金(21YJC880104)

出版年

2023

计算机研究与发展

中国科学院计算技术研究所中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心

影响因子：2.649

ISSN：1000-1239

参考文献量40

段落导航