计算机时代2023,Issue(5) :123-126.DOI:10.16644/j.cnki.cn33-1094/tp.2023.05.027

一种中文分词的预处理技术

Pre-treatment technology for Chinese word segmentation

陈书雨 曹集翔 姚寒冰
计算机时代2023,Issue(5) :123-126.DOI:10.16644/j.cnki.cn33-1094/tp.2023.05.027

一种中文分词的预处理技术

Pre-treatment technology for Chinese word segmentation

陈书雨 1曹集翔 2姚寒冰2
扫码查看

作者信息

  • 1. 伦敦大学学院多学科和跨文化研究中心,英国 伦敦 W55RF
  • 2. 武汉理工大学计算机与人工智能学院
  • 折叠

摘要

分析基于词表的最大匹配分词算法,针对其缺陷设计了一个附近字表,内容为高频字在词表中出现的左边首字和右边首字.设计的算法根据高频词的特点,将句子尽可能多的分成段,然后将段进行最大匹配.当发现句子中高频词时,只取句子中高频词的左边首字和右边首字在附近字表中查找;若未找到,则表示句子中此高频字单独成词,无需在词表中匹配,从而减少高频字单独成词时的匹配时间,进而减少整个分词过程的时间.通过实验证明此技术能提高中文分词的效率.

关键词

高频词/预处理/中文分词

引用本文复制引用

基金项目

武汉理工大学重庆研究院科技创新研发项目(YF2021-10)

出版年

2023
计算机时代
浙江省计算技术研究所 浙江省计算机学会

计算机时代

影响因子:0.411
ISSN:1006-8228
参考文献量4
段落导航相关论文