首页|基于条件随机场的命名实体识别研究

基于条件随机场的命名实体识别研究

郭家清

基于条件随机场的命名实体识别研究

郭家清1
扫码查看

作者信息

  • 1. 沈阳航空工业学院
  • 折叠

摘要

命名实体识别就是把文本中出现的命名实体包括人名、地名、组织机构名、日期、时间、和其他实体识别出来并加以归类。命名实体识别是自然语言处理中的热点问题和基础性工作,对自然语言处理具有极其重要的意义,并被应用到自然语言处理的许多领域,如信息检索、信息抽取和机器翻译等。 本文首先对当前命名实体识别的研究进行了总结和回顾,并介绍了国内外命名实体识别评测活动,研究了当前命名实体识别研究的进展和命名实体识别所使用的各种方法; 中文分词和命名实体识别二者相辅相成、不可分割。分词可以作为命名实体识别的一个预处理环节,而命名实体识别的目的之一也是为了提高分词的精度。本文进行了基于最大熵模型的中文自动分词的研究,提出了对切分点进行标注的分词方法,利用该方法实现了一个基于最大熵的中文分词系统,并参加了第三届国际中文处理评测的分词比赛;最后,本文进行了基于条件随机场的命名实体识别的研究,提出了一种将最大概率分词信息融入到条件随机场模型中来进行命名实体识别的方法。条件随机场是一种统计机器学习方法,在序列标注和分割方面有着优秀的表现;最大概率分词是一种效果较好的词语粗切分方法,在只返回单个切分结果的所有粗切分方法中具有较高的句子召回率。本文把这两者有机地结合起来,分别进行了人名识别和地名识别实验,都取得了较好的效果,证明了这种方法的有效性。

关键词

分词/命名实体识别/最大熵模型/条件随机场/最大概率分词模型

引用本文复制引用

授予学位

硕士

学科专业

计算机应用技术

导师

蔡东风/刘纪元

学位年度

2007

学位授予单位

沈阳航空工业学院

语种

中文

中图分类号

TP
段落导航相关论文