摘要
近年来,随着互联网信息技术的高速发展和科技的进步,越来越多的信息涌入互联网中。杂乱无章的信息使人们开始依赖信息抽取技术,而事件抽取是信息抽取的重要部分。事件抽取包含事件触发词抽取和事件元素抽取两个核心子任务。其中,事件触发词抽取是找出最能体现事件发生的核心词,并对其进行分类,而事件元素抽取则是抽取出事件发生的时间、地点、参与事件的人物等重要信息。 中文事件抽取任务主要集中在冲突事件、金融事件、军事事件等方面。伴随“智慧党建”热潮的掀起,针对党建数据的事件抽取开始获得广泛关注,此领域的研究对于党建新闻的检索、党建相关知识的普及等有着重要的价值。 本文构建了中文党建数据事件抽取语料库,并提出了基于GCNN的事件触发词抽取模型和事件元素抽取模型。模型首先采用预训练方式进行文本向量化,随后通过门控卷积层抽取出特征向量,然后通过自注意力机制赋予关键特征更高权重,再依据候选词及触发词的位置进行动态多池化操作,最后通过输出层输出事件抽取的结果,并依据每批训练数据的损失分布,将静态损失函数改为动态损失函数。相较于其他基准模型,本文所提出的模型在中文党建数据的事件抽取实验中取得了最优的结果,表明了GCNN模型和动态损失函数的有效性。 此外,本文将事件抽取结果存取到数据库中,并提供了党建事件查询系统,可根据事件类型和事件元素查询事件信息。