摘要
图像生成是机器学习领域的一项研究任务,其目标是学习数据潜在分布,从而产生能够以假乱真的高质量图像样本。目前研究者们提出了很多生成模型应用于图像生成任务,并且已取得一定效果。但是,如何生成高质量的数据样本仍然是计算机领域不断追求的目标。目前,有关图像生成方法主要存在以下两个难点:一方面,生成图像样本模式单一,无法完全覆盖训练图像样本的所有模式,即出现模式损失问题;另一方面,由于模型设计本身存在固有的缺陷,导致网络训练过程不稳定、网络收敛速度慢等问题。本文从生成样本的多样性、网络训练的稳定性、生成样本的逼真度三个角度出发,探索基于能量模型的图像生成算法。主要工作如下: (1)针对生成对抗网络存在的模式损失问题,本文利用信息熵的特性提出一个非参数的互信息估计器。该方法需要引入一个子判别网络,首先将生成样本的最大熵计算转换为随机输入变量与其对应的生成样本之间的互信息计算。其次使用f-散度对互信息进行精确估计,并将其惩罚在生成器的目标函数上。最后在更新网络模型参数时也要根据互信息损失进行梯度下降。实验结果表明,引入互信息估计器能够最大化生成样本的熵,显著提高生成样本的多样性,从而降低生成样本模式损失问题。 (2)针对深度神经网络训练过程不稳定问题,本文提出一种以零为中心的梯度惩罚项。具体来讲,从能量的定义出发,认为能量值越小系统状态越稳定。因此,为稳定网络训练,本文所提模型使真实数据样本尽可能地分布在能量函数的局部极小值点处,即期望其导数为零,并将该项直接惩罚到能量网络的目标函数上,这样判别器不会优化过度,从而导致生成器梯度爆炸/消失等情况。实验结果显示,加入该梯度惩罚项不仅能够使网络训练过程更加稳定,同时也使网络具有更好的收敛性。 (3)为进一步提升能量模型的生成性能,本文提出了一种基于能量模型与流模型的联合训练策略。在噪声对比估计的基础上,用流模型转换过的分布代替一般噪声分布作为能量模型的对比分布,以增加能量模型判别真假样本的难度。同时,利用最大似然估计与变分近似两种方法学习流模型。这种训练策略可以促使能量模型与流模型都达到更好的生成性能。实验结果显示,该方法能够使用更简单的网络结构实现准确的概率密度估计,并且对于流模型生成样本的质量也有显著的提升。