首页|篇章级事件抽取关键技术研究

篇章级事件抽取关键技术研究

贾浩

篇章级事件抽取关键技术研究

贾浩1
扫码查看

作者信息

  • 1. 中国科学院大学
  • 折叠

摘要

事件抽取是指从非结构化文本中抽取事件信息,并以结构化形式呈现给用户。事件抽取是信息抽取研究中一项重要且具有挑战性的任务,可以为事理图谱构建、事件演化分析等提供可用的结构化信息,近年来在舆情治理、金融风控、威胁情报等安全领域得到了广泛应用,有着重要的理论研究意义和实际应用价值。 根据使用的特征范围进行划分,事件抽取方法可以分为句子级事件抽取方法和篇章级事件抽取方法。由于表达形式自由,在新闻、微博等电子文档中,普遍存在一个文档包含多个事件、一个事件的多个元素分散在不同句子中的现象,仅使用句子内部特征的句子级事件抽取方法难以在该应用场景中取得较好的效果。因此,本文拟开展篇章级事件抽取关键技术的研究,以提升实际应用场景下事件抽取的准确性。 针对篇章级语料噪声多、论元重叠和论元缺失、事件标注数据稀疏等问题,本文分别对事件检测和事件论元抽取两个子任务提出改进方法,并设计外部知识融合策略应对小样本问题,以提升真实应用场景下事件抽取的准确性。本文的研究工作和主要贡献包括以下三个部分: 1.提出了一种融合篇章和句子语义的事件检测模型。篇章语料复杂度高,语义信息中事件无关的噪声多,基于触发词的方法效果差。针对该问题,本文提出融合篇章和句子语义的事件检测模型,利用句子中的实体信息和句子间的相对位置关系进行建模,将篇章文本转换为无向加权图,以减少事件无关信息的影响,并将篇章语义和句子语义进行有效结合,获得更好的文本表示。在DuEE1.0和WikiEvents数据集上进行了篇章级事件检测实验,本文模型对比多个基准方法均取得了更优性能,验证了模型的有效性。 2.提出了一种基于提示学习的事件论元抽取模型。论元重叠和论元缺失现象在富含多事件的篇章级事件论元抽取中更加突出,现有的方法存在大量过度抽取的错误。针对该问题,本文提出基于提示学习的事件论元抽取模型,利用事件模板生成提示模板,通过引入事件类型信息区分各事件论元,并在训练过程中插入空槽样本,学习拒绝抽取的能力。在RAMS和WikiEvents数据集上进行了篇章级事件论元抽取实验,本文模型对比多个基准方法均取得了更优性能,验证了模型的有效性。 3.提出了一种基于外部知识融合的小样本事件抽取模型。事件类型复杂多变、事件模板粒度不一,并且缺乏大规模标注语料,模型性能随着训练样本减少而严重下降。针对该问题,本文提出基于外部知识融合的小样本事件抽取模型,通过领域词预测和目标实体抽取任务,学习外部数据集中潜在的事件知识。在WikiEvents数据集上进行了多种小样本场景实验,本文模型对比多个基准方法均取得了更优性能,验证了模型的有效性。

关键词

事件检测/提示学习/知识融合/语义信息

引用本文复制引用

授予学位

硕士

学科专业

电子信息

导师

戴琼

学位年度

2023

学位授予单位

中国科学院大学

语种

中文

中图分类号

TP
段落导航相关论文