查看更多>>摘要:扩散模型变革了文本-图像生成领域,使终端用户可以基于简单的自然语言提示生成高质量、多样化的图像艺术作品.然而,由于训练数据集庞大且未经过滤,文本-图像生成模型具有生成色情内容与暴力内容等不适当内容的能力.为更加安全地部署此类模型,提出了一种基于CLIP(contrastive language-image pre-training)方向性损失的微调(directional CLIP loss based fine-tuning,CLIF)算法,使用方向性的CLIP损失来微调模型,以抑制其生成不适当内容的能力.CLIF消耗的计算资源很少,并且具有强制生效的特点.为评估其抑制效果,提出了CTP(categorized toxic prompts)用于评估文本-图像生成模型的不适当内容生成能力.在CTP与COCO(common objects in context)上的实验结果表明,CLIF能够在抑制文本-图像扩散模型生成不安全内容的同时不影响其一般性生成能力.