首页|一种中文分词的预处理技术

一种中文分词的预处理技术

扫码查看
分析基于词表的最大匹配分词算法,针对其缺陷设计了一个附近字表,内容为高频字在词表中出现的左边首字和右边首字.设计的算法根据高频词的特点,将句子尽可能多的分成段,然后将段进行最大匹配.当发现句子中高频词时,只取句子中高频词的左边首字和右边首字在附近字表中查找;若未找到,则表示句子中此高频字单独成词,无需在词表中匹配,从而减少高频字单独成词时的匹配时间,进而减少整个分词过程的时间.通过实验证明此技术能提高中文分词的效率.
Pre-treatment technology for Chinese word segmentation

陈书雨、曹集翔、姚寒冰

展开 >

伦敦大学学院多学科和跨文化研究中心,英国 伦敦 W55RF

武汉理工大学计算机与人工智能学院

高频词 预处理 中文分词

武汉理工大学重庆研究院科技创新研发项目

YF2021-10

2023

计算机时代
浙江省计算技术研究所 浙江省计算机学会

计算机时代

影响因子:0.411
ISSN:1006-8228
年,卷(期):2023.(5)
  • 4