摘要
自然语言处理任务中词处理是基础性的工作,其结果直接影响后续任务的效果.词干和构形附加成分是哈萨克语单词的组成成分,其中词干显示单词的主要意义,而构形附加成分中包含着词法和句法信息,因此词干切分是对哈萨克语进行有效处理的基础.文中构建了哈萨克语词干切分语料库,并通过将哈萨克语词干切分看作是序列化标注问题,提出一种有效的哈萨克语词标注方法,并基于最大熵模型和条件随机场模型构建了对比词干切分实验.结果表明基于条件随机场模型的词干切分准确率比现有最好的哈萨克语词干切分系统的准确率有15%的提高.该方法对哈萨克语词干切分相较于基于规则的方法有了一定的提升.
基金项目
新疆自然科学基金(2019D01C337:)
伊犁师范大学科研项目(2016YSYB09:)
伊犁师范大学教育教学研究项目(JGZH17151)