摘要
该文对自动分词和词性标注的模型和方法进行了研究.首先分析了分词词典的各种组织结构和相应的性能,介绍了常用的自动分词方法,接着对自动分词中的难点歧义切分字段进行了分类,并分析了处理歧义字段的各种统计方法,接着对自动分词中的难点歧义切分字段进行了分类,并分析了处理歧义字段的各种统计方法,指出了用统计方法能够处理的歧义字段的范围,然后讨论了词性标注的模型和方法,给出了将分词和词性标注一体化的原因和意义,最后设计并实现了用统计方法进行歧义切分字段处理和词性标注的算法.该文从一个已经经过词性标注的语料库入手,在二元语言模型下,利用相对频率训练方法(RelativeFrequencyTraining)获得模型的参数,将实现的算法加入到一个原始的自动分词系统中,并用改进后的系统对文本进行了测试.测试结果表明改进后的系统和原系统相比,处理歧义字段的能力有了显著的改善,词性标注的正确率从初始的65.5%提高到93.3%.