计算机研究与发展2023,Vol.60Issue(12) :2844-2863.DOI:10.7544/issn1000-1239.202220713

基于中间域语义传导的跨领域文本生成方法

Cross-Domain Text Generation Method Based on Semantic Conduction of Intermediate Domains

马廷淮 于信 荣欢
计算机研究与发展2023,Vol.60Issue(12) :2844-2863.DOI:10.7544/issn1000-1239.202220713

基于中间域语义传导的跨领域文本生成方法

Cross-Domain Text Generation Method Based on Semantic Conduction of Intermediate Domains

马廷淮 1于信 1荣欢2
扫码查看

作者信息

  • 1. 南京信息工程大学软件学院 南京 210044
  • 2. 南京信息工程大学人工智能学院(未来技术学院) 南京 210044
  • 折叠

摘要

在多领域数据的文本生成场景中,不同领域中的数据通常存在差异性,而新领域的引入会同时带来数据缺失的问题.传统的有监督方法,需要目标领域中大量包含标记的数据来训练深度神经网络文本生成模型,而且训练好的模型无法在新领域中取得良好的泛化效果.针对多领域场景中数据差异和数据缺失的问题,受到迁移学习方法的启发,设计了一种综合性的迁移式文本生成方法,减少了不同领域之间文本数据的差异性,同时借助已有领域和新领域之间文本数据上的语义关联性,帮助深度神经网络文本生成模型在新领域上进行泛化.通过在公开数据集上的实验,验证了所提方法在多领域场景下领域迁移的有效性,模型在新领域上进行文本生成时具有较好的表现,对比现有的其他迁移式文本生成方法,在各项文本生成评价指标上均有提升.

关键词

深度神经网络/文本生成模型/数据分布对齐/最大均值差异/零次学习/语义要素传导

Key words

deep neural network/text generation model/data distribution alignment/maximum mean discrepancy/zero-shot learning/semantic conduction

引用本文复制引用

基金项目

国家自然科学基金(62102187)

国家自然科学基金(62372243)

江苏省自然科学基金(基础研究计划)项目(BK20210639)

国家重点研发计划项目(2021YFE0104400)

出版年

2023
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
参考文献量8
段落导航相关论文