摘要
从单文档中生成简短精炼的摘要文本可有效缓解信息爆炸给人们带来的阅读压力.近年来,序列到序列(sequence-to-sequence,Seq2Seq)模型在各文本生成任务中广泛应用,其中结合注意力机制的Seq2Seq 模型已成为生成式文本摘要的基本框架.为生成能体现摘要的特定写作风格特征的摘要,在基于注意力和覆盖率机制的Seq2Seq 模型基础上,在解码阶段利用变分自编码器(variational auto-encoder,VAE)刻画摘要风格特征并用于指导摘要文本生成;最后,利用指针生成网络来缓解模型中可能出现的未登录词问题.基于新浪微博LCSTS 数据集的实验结果表明,该方法能有效刻画摘要风格特征、缓解未登录词及重复生成问题,使得生成的摘要准确性高于基准模型.
基金项目
国家自然科学基金资助项目(61802194)
国家自然科学基金资助项目(61902190)
江苏省高等学校自然科学研究项目(17KJB520015)
江苏省高等学校自然科学研究项目(19KJB520040)