摘要
随着人工智能技术的快速发展,越来越多的人工智能技术走出实验室,在市场和实践中落地。典型例子有情感陪护类聊天机器人和个人助手类对话系统,如Tay、小冰、Alex智能音箱和Siri等。人们感叹人工智能产品给生活带来便利的同时,也对人工智能产品的安全性感到担忧。 事实证明,这些担忧并不是多余的。人工智能技术在产品化的过程中暴露出很多安全问题。其中,针对聊天机器人的在线学习漏洞的攻击就频频发生:黑客或恶意用户利用聊天系统的在线学习接口漏洞,“教”给机器人极端言论,导致聊天机器人产生不当言论而触犯了当地法律法规,导致聊天机器人产品被迫下架整顿,给公司带来极大损失。此外,由于无法确定模型“学坏”的具体时刻,因此很难精确地回滚到未受污染的版本,只能回滚到相对早期的版本。如果模型退回到早期的版本就丢失了这期间从在线学习接口中学到的有价值的内容,给整顿工作带来了不小的难度。这使得在线学习聊天机器人回复的安全性成了工业界和学术界亟待解决的问题。因此,本文针对在线学习聊天机器人回复的安全性问题进行了研究。 本文的主要工作如下: 1.提出了一个针对在线学习聊天机器人的安全回复框架。首先,该框架能够结合用户输入句的语境来检测非安全回复;其次,该框架能够应对非安全回复的快速演化;最后,该框架拥有聊天模型的言论净化能力。为了满足以上功能,本文分别提出了输入句感知的言论审查模型、审查器模型的在线主动学习算法、基于增强学习的言论净化算法。此外,该框架以松耦合的方式整合各个功能和算法流程,具有较强的灵活性。基于此框架,本文实现了一个聊天机器人应用示例。 2.提出了输入句感知的言论审查模型。聊天机器人的非安全回复包括以下三种情况:回复句字面包含不净词汇;回复句字面没有不净词汇,但隐含侵犯性语义;回复句字面和语义都是正常的,但结合用户输入句上下文时便包含侵犯性。对聊天机器人的言论审查不仅需要检测字面和隐含语义,还需要同时考虑用户输入句的语境。因此,本文提出一个基于编码器-分类器架构的言论审查模型将用户输入句语义引入分类过程。实验证明,结合输入句信息可以提升非安全回复检测的准确性,并且编码器-分类器架构能够缓解引入输入句带来的长时依赖问题。 3.提出了一个融合无监督的在线主动学习算法来持续训练言论审查模型。本文通过引入基于用户举报反馈的在线学习接口来应对非安全回复的快速演化和增加。但此举报接口也容易被黑客或恶意用户利用从而干扰审查器模型的分类精度。因此,本文提出了融合无监督的主动学习算法,其中主动学习算法从用户反馈中优先选出信心值低的样本进行人工标注确认。这是因为,用户举报的样本都来自于审查器预测为安全回复的样本,在审查器模型训练得足够好的前提下,审查器对举报样本的信心值越高,则该样本越有可能是错误标注。本文暂时忽略可能为错误标注的样本以节约人工标注成本。无监督算法能利用大量未被人工标注确认的反馈数据来提升模型的特征提取能力。多个数据集上的实验证明,该算法能够保障反馈接口安全性的同时减少人工标注的成本。 4.提出了一种基于增强学习的言论净化算法。该算法能在聊天机器人模型已被污染的情况下,通过增强学习方法忘掉学到的非安全回复,从而无需回滚到早期的版本。此外,通过集成一次学习方法,加快言论净化速度的同时降低对回复句质量的影响。实验证明,该算法能够减少聊天模型生成非安全回复的概率,并且集成一次学习算法后,训练速度得到快速提升的同时降低了对回复句流畅度的影响。