国家学术搜索
登录
注册
中文
EN
计算机时代
2023,
Issue
(5) :
123-126.
DOI:
10.16644/j.cnki.cn33-1094/tp.2023.05.027
一种中文分词的预处理技术
Pre-treatment technology for Chinese word segmentation
陈书雨
曹集翔
姚寒冰
计算机时代
2023,
Issue
(5) :
123-126.
DOI:
10.16644/j.cnki.cn33-1094/tp.2023.05.027
引用
认领
✕
来源:
NETL
NSTL
维普
万方数据
一种中文分词的预处理技术
Pre-treatment technology for Chinese word segmentation
陈书雨
1
曹集翔
2
姚寒冰
2
扫码查看
点击上方二维码区域,可以放大扫码查看
作者信息
1.
伦敦大学学院多学科和跨文化研究中心,英国 伦敦 W55RF
2.
武汉理工大学计算机与人工智能学院
折叠
摘要
分析基于词表的最大匹配分词算法,针对其缺陷设计了一个附近字表,内容为高频字在词表中出现的左边首字和右边首字.设计的算法根据高频词的特点,将句子尽可能多的分成段,然后将段进行最大匹配.当发现句子中高频词时,只取句子中高频词的左边首字和右边首字在附近字表中查找;若未找到,则表示句子中此高频字单独成词,无需在词表中匹配,从而减少高频字单独成词时的匹配时间,进而减少整个分词过程的时间.通过实验证明此技术能提高中文分词的效率.
关键词
高频词
/
预处理
/
中文分词
引用本文
复制引用
基金项目
武汉理工大学重庆研究院科技创新研发项目(YF2021-10)
出版年
2023
计算机时代
浙江省计算技术研究所 浙江省计算机学会
计算机时代
影响因子:
0.411
ISSN:
1006-8228
引用
认领
参考文献量
4
段落导航
相关论文
摘要
关键词
引用本文
基金项目
出版年
参考文献
引证文献
同作者其他文献
同项目成果
同科学数据成果