基于机器学习方法的哈萨克语词干切分研究

Research on Kazakh Stemming Based on Machine Learning

库瓦特拜克·马木提¹

扫码查看

作者信息

1. 伊犁师范大学电子与信息工程学院,新疆伊宁 835000
折叠

摘要

自然语言处理任务中词处理是基础性的工作,其结果直接影响后续任务的效果.词干和构形附加成分是哈萨克语单词的组成成分,其中词干显示单词的主要意义,而构形附加成分中包含着词法和句法信息,因此词干切分是对哈萨克语进行有效处理的基础.文中构建了哈萨克语词干切分语料库,并通过将哈萨克语词干切分看作是序列化标注问题,提出一种有效的哈萨克语词标注方法,并基于最大熵模型和条件随机场模型构建了对比词干切分实验.结果表明基于条件随机场模型的词干切分准确率比现有最好的哈萨克语词干切分系统的准确率有15％的提高.该方法对哈萨克语词干切分相较于基于规则的方法有了一定的提升.

关键词

词干切分/统计学习模型/最大熵模型/条件随机场模型

引用本文复制引用

基金项目

新疆自然科学基金(2019D01C337:)

伊犁师范大学科研项目(2016YSYB09:)

伊犁师范大学教育教学研究项目(JGZH17151)

出版年

2020

计算机技术与发展

陕西省计算机学会

计算机技术与发展

CSTPCD

影响因子：0.621

ISSN：1673-629X

参考文献量14

段落导航