中文信息学报2024,Vol.38Issue(6) :119-128.

基于子句单元的异构图网络抽取式文本摘要

Extractive Text Summarization with Heterogeneous Graph Network Based on Sub-sentence Unit

林群凯 陈钰枫 徐金安 张玉洁 刘健
中文信息学报2024,Vol.38Issue(6) :119-128.

基于子句单元的异构图网络抽取式文本摘要

Extractive Text Summarization with Heterogeneous Graph Network Based on Sub-sentence Unit

林群凯 1陈钰枫 1徐金安 1张玉洁 1刘健1
扫码查看

作者信息

  • 1. 北京交通大学交通数据分析与挖掘北京市重点实验室,北京 100044
  • 折叠

摘要

文本摘要的目标是将长文本进行压缩、归纳和总结,从而形成具有概括性含义的短文本,其能帮助人们快速获取文档的主要信息.当前大多数的抽取式文本摘要的研究都是以整句作为抽取单元,而整句作为抽取单元会引入冗余信息,因此该文考虑使用粒度更细的抽取单元.已有研究表明,细粒度的子句单元比整句单元在抽取式摘要上更具有优势.结合当下热门的图神经网络,该文提出了一种基于子句单元异构图网络的抽取式摘要模型,有效融合了词、实体和子句单元等不同层次的语言信息,能够实现更细粒度的抽取式摘要.在大规模基准语料库(CNN/DM和NYT)上的实验结果表明,该模型产生了突破性的性能并优于以前的抽取式摘要模型.

Abstract

The goal of text summarization is to summarize long text into a short text with main information.To avoid the redundant information brought by the sentence extraction,we propose an extractive summarization model based on a heterogeneous graph network of sub-sentence units,which effectively integrates different levels of language in-formation such as words,entities,and sub-sentential units.Experiments on two large scale benchmark corpora(CNN/DM and NYT)demonstrate that our model yields ground-breaking performance and outperforms previous extractive summarizers.

关键词

子句/异构图/抽取式摘要

Key words

sub-sentential/heterogeneous graph/extractive summarization

引用本文复制引用

基金项目

国家自然科学基金(61976016)

国家自然科学基金(61976015)

国家自然科学基金(61876198)

出版年

2024
中文信息学报
中国中文信息学会,中国科学院软件研究所

中文信息学报

CSTPCDCHSSCD北大核心
影响因子:0.8
ISSN:1003-0077
段落导航相关论文