摘要
建设高质量的标注语料库是维并尔语信息理领域的基础。日前,在机器翻译、信息检索、Web文本挖掘等许多领域对语料库的使越来越多,要求也越来越高。自动词十提取和词性标注是建立标注语料库的基础性工作。 本文采用了双向匹配和全切分相结合的方法来实现维并尔语下提取。与最大匹配法相比,该方法提高了词于提取的正确率。本文在维杆尔语词干提取应用中,采用了改进的逐字母二分词典查询机制。该词典查询机制提高了词千提取的效率。 除此之外,本文对词性标注的方法进行了研究,分析了基于规则的方法和基于统计的方法的优缺点。首次采用概率统计的方法研究了维吾尔语词性标注问题。本文采用了一阶隐马尔可夫模型,并且通过RF7相对概率训练获得了模型参数。采用了回退式参数平滑算法来解决了一阶隐马尔可夫模型的数据稀疏问题。最后,算法以句子为单位进行词性标注。实验证明,基于概率统计的一阶隐马尔可夫模型以及1litbi算法能有效的解决维吾尔语词性标注的问题。