摘要
命名实体识别(NER)是自然语言处理(NLP)中的一项重要任务之一,该任务是研究如何在给定的文本中的识别出来具有特定意义的命名实体。大多数早期的NER研究都是基于手工制定的规则,这些规则在实践中表现有限。深度学习已成为NER任务的最新方法,该方法将问题建模为序列标记任务,从数据中自动学习的特征。但是,获取NER的标注数据非常昂贵,所以缺乏高质量的标记数据仍然是限制NER任务在不同领域发展和影响训练模型性能的主要瓶颈。 针对上述问题,本文提出了两种在没有标注语料和专家知识的情况下进行领域命名实体识别的任务的方法。主要工作如下: 1.本文提出了一种迭代的基于模板的半监督方法—CPL,完成了领域NER任务。通过给定少量的初始种子实体,迭代的在大规模语料库中抽取更多的实体,通过多种约束条件过滤学习新的实体和抽取模板。本文还引入了基于hearst pattern的并列词语集合进行实体抽取,以便更充分地利用语料提供的信息,增加命名实体识别的效率。针对领域实体的特点,使用领域词性模版的方法,提升领域实体的识别率。 2.本文提出了一种基于强化学习去噪的命名实体识别模型(RLNER)。该模型有两个模块:标签修改器模块和标签预测器模块。标签修改器通过强化学习来纠正错误的标签,并将校正后的标签输入到标签预测器中。标签预测器做出句子级别的判断,并为标签修饰符提供奖励。通过联合训练两个模块,以优化标签校正和标签预测过程。 3.实验结果表明,本文提出的CPL方法可以在大规模未标注语料中抽取通用领域和特定的实体。RLNER方法可以通过少量正确标记的数据,有效处理原始数据中的噪声,与现有方法相比,方法2的模型在带噪音的NER任务中获得了更好的性能。