汉语自动分词和词性标注研究

王昕¹

扫码查看

作者信息

1. 中国科学技术大学
折叠

摘要

该文对自动分词和词性标注的模型和方法进行了研究.首先分析了分词词典的各种组织结构和相应的性能,介绍了常用的自动分词方法,接着对自动分词中的难点歧义切分字段进行了分类,并分析了处理歧义字段的各种统计方法,接着对自动分词中的难点歧义切分字段进行了分类,并分析了处理歧义字段的各种统计方法,指出了用统计方法能够处理的歧义字段的范围,然后讨论了词性标注的模型和方法,给出了将分词和词性标注一体化的原因和意义,最后设计并实现了用统计方法进行歧义切分字段处理和词性标注的算法.该文从一个已经经过词性标注的语料库入手,在二元语言模型下,利用相对频率训练方法（RelativeFrequencyTraining）获得模型的参数,将实现的算法加入到一个原始的自动分词系统中,并用改进后的系统对文本进行了测试.测试结果表明改进后的系统和原系统相比,处理歧义字段的能力有了显著的改善,词性标注的正确率从初始的65.5%提高到93.3%.

关键词

分词/词性标注/歧义字段/统计方法/计算语言学/中文信息处理

引用本文复制引用

授予学位

硕士

学科专业

计算机软件和理论

导师

王煦法

学位年度

2002

学位授予单位

中国科学技术大学

语种

中文

中图分类号

段落导航