首页|基于SentencePiece的中医学分词模型建模研究

基于SentencePiece的中医学分词模型建模研究

扫码查看
目的:探索构建适用于中医学领域的分词模型.方法:采用基于SentencePiece的无监督学习分词方法,提出利用出版教材、名家著作及中医临床病历这3种不同类型的文献构建中医学分词模型;选择中医临床病历、名医医案作为测试集进行模型测试.结果:中医学分词模型在测试集中的Kappa系数为0.79(一致性程度很高),准确率为0.84,宏观精确率为0.84,宏观召回率为0.83,宏观f1得分为0.83.结论:所构建的分词模型对于中医学专业术语有着较好的切分效果,表明该方法可运用于中医学领域的分词模型的构建,可为进一步地研究中医学分词提供方法学参考.
Research on Modeling of Traditional Chinese Medicine Word Segmentation Model Based on SentencePiece

刘双巧、周璐、李彩艳、袁慧敏、张异卓、李昱达、刘锦钢、郑丰杰、孙燕、李宇航

展开 >

北京中医药大学中医学院,北京,100029

分词 中文分词 分词模型 无监督学习 无监督分词 SentencePiece

国家重点研发计划项目国家重点研发计划项目

2017YFC17003032017YFC1700300

2021

世界中医药
世界中医药学会联合会

世界中医药

CSTPCDCHSSCD
影响因子:1.266
ISSN:1673-7202
年,卷(期):2021.16(6)
  • 1
  • 15