首页|基于深度学习的远程监督关系抽取方法及应用

基于深度学习的远程监督关系抽取方法及应用

杨穗珠

基于深度学习的远程监督关系抽取方法及应用

杨穗珠1
扫码查看

作者信息

  • 1. 华南理工大学
  • 折叠

摘要

关系抽取是自然语言处理领域中的基础任务,目的是获取句子中的三元组信息,用于信息检索、知识问答等下游任务。基于监督学习的关系抽取方法需要人工构建的数据集,构建过程需要耗费巨大的人力和时间成本。为实现关系抽取自动化,学者们提出了远程监督方法,基于已有的结构化信息和语料集自动生成关系抽取数据集。虽然远程监督有效地解决了人工标注的成本问题,但因其数据集构建时伴随强约束性假设导致错误标注不可避免,而公开域的数据来源也使数据集具有严重长尾现象,所以远程监督关系抽取任务依旧存在不少挑战。因此本文研究重点在于构建多效的远程监督关系抽取架构,以弱化长尾现象和错误标注问题对模型分类能力的负面影响,主要内容包括: (1)在At-Least-One假设的基础上,提出了融合长尾数据增强和超包表征的远程监督关系抽取架构,以缓解错误标注问题和长尾现象对关系抽取模型的负面影响,提高模型的分类性能,该架构包括面向长尾关系的数据增强方法和基于深度聚类的超包级远程监督关系抽取模型。 (2)针对数据集长尾现象,通过分析数据集,并研究其示例分布情况,本文提出了一种可插拔的面向长尾关系的数据增强方法,以缓解数据集中严重的类别不平衡问题,显著提升了模型在长尾关系上的分类准确性。 (3)针对错误标注问题,通过分析现有算法的局限性,本文提出了基于深度聚类的超包级远程监督关系抽取模型。在基于包表征的算法上进行改进,引入深度聚类模块构建超包,减少噪声数据对模型的负面影响,有效提高模型的鲁棒性和性能。 (4)基于远程监督的智能标注系统的实现,在标注系统中搭载本文提出的远程监督关系抽取模型,通过智能的预标注环节,缩短了单次标注的操作路径,提高了标注人员的工作效率。

关键词

远程监督/错误标注/长尾现象/数据增强/深度聚类

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

刘艳霞/叶建平

学位年度

2021

学位授予单位

华南理工大学

语种

中文

中图分类号

TP
段落导航相关论文