摘要
自然语言处理技术是舆情监控管理的核心技术,对实现网络内容安全具有重要的意义。而句子是自然语言中承载语义信息的主要单位,这使得构建高质量的句子表征成为自然语言处理中的一个关键任务,具有重要的研究价值和应用前景。句子语义是在词语语义基础上结合句法信息耦合得到的,这使得构建包含结构信息的句子表征成为一种趋势。然而,现有的方法多数以人工生成的语法结构作为额外的监督信息,缺乏对于任务的适应性,计算效率低下。针对上述问题,本文研究了结构自适应的句子表征方法,将预生成的语法树结构转化为网络自动搜索的层级结构,实现端到端的句子表征学习,在提升计算效率的同时实现结构对于模型和任务的适应性。 具体地,(1)针对通用句子表征模型中高效利用结构信息的难题,本文提出了一种短语级局部全局混合的句子表征方法,通过将句子的结构属性简化为词-短语-句子三种层级关系,使得结构生成与任务目标预测同步进行,并仅依靠下游任务的监督信号进行训练。为了提升在层级结构中底层信息的利用效率,使用了局部全局特征结合的方法构造最终的句子表征。本方法在多种类型的下游任务实验达到了现有最优水平;(2)针对无监督场景下的句子表征学习问题,提出了一种局部语义约束的无监督句子表征方法,利用短语表征与句子表征之间的语义一致性来构建无监督学习目标函数,并采用孪生编码结构来确保该方法在实际应用中的高效性。多个公开数据集上的实验结果表明,该方法在语义相似度任务上达到了现有最优水平,在其他类型任务的迁移中也表现出了较为优秀的性能。