查看更多>>摘要:针对当前的图像字幕方法只能够用一种黑盒的、从外部难以控制的架构描述图像的问题.创造性地将图像字幕问题转换为seq2seq问题,达到了可控生成图像字幕的效果.设计一个由图像区域构成的实体集合或实体序列作为控制信号,在实体块切换的块哨兵和带视觉哨兵的自适应注意力机制的指导下,将控制信号有规律地输入到双层的长短期记忆网络(long short term memory,LSTM)中,以可控的方式指导模型生成对应的图像字幕;此外,baseline使用cross entropy loss来早停模型的训练,引入强化学习思想来解决训练时的优化目标与评估算法效果时指标不一致的问题,进一步优化模型效果.实验表明:在MSCOCO及Flickr30k数据集上,提出的算法在生成可控图像字幕、字幕质量、多样性上达到了非常好的效果.
查看更多>>摘要:为解决真实图像转换为动漫风格图像出现的参数量大、图像纹理和颜色损失的问题,提出了一种多通道卡通生成对抗网络(MC_CartoonGAN).首先,使用HSCNN+(advanced CNNs for the hyperspectral reconstruction task)和遗传算法重新构建多通道图像数据集,丰富图像信息.其次,利用DenseNet网络进行特征复用减少参数的内存占用率及缓解梯度消失的问题.最后,引入多通道颜色重建损失函数,在保证了生成图像内容完整的情况下,降低了生成图像的颜色损失.实验结果表明,提出的多通道卡通生成对抗网络将真实图像转换成动漫风格图像的质量更优.