摘要
该文研究了自动分词和词性标注系统可以为短语识别、句法分析提供较好的基础,尤其为短语识别提供了较丰富的分词标注信息以及词频等资源.作为面向实用化系统的一部分,该课题的算法也对时间和空间的复杂度进行了考虑.该文从如下几个方面进行了分词和词性标注的研究:首先分析了国内外自动分词、未登录词识别和词性标注的相关研究及该领域的发展趋势后,给出了分词岐义和词性标注的意义,分析了分词岐义各类岐义产生的原因,研究了未登录词识别的各种算法及其资源,并以此为基础强调了上下文环境对于未登录词识别和分词岐义消除的重要性.未登录词识别和分词岐义消除是该文研究的重点.为了满足系统对时间复杂度的要求,该文采用动态规划算法以及深度优先处法算法实现以上系统.为了方便下一级的工作,笔者将分词和词性标注做成一个基类,使下一级的工作可以应用面向对象的方法开发下去.