首页|基于CmabBERT-BILSTM-CRF的针灸古籍分词技术研究

基于CmabBERT-BILSTM-CRF的针灸古籍分词技术研究

扫码查看
针灸古籍中含有大量通假字、歧义词和专业术语.基于深度学习的分词方法,因静态字向量固有表示和大规模且高质量语料缺乏等问题,限制了分词性能.为缓解上述问题,提出引入预训练策略,在ALBERT模型基础上,利用大量中医古籍再训练得到CmabBERT模型,并构建CmabBERT-BILSTM-CRF融合模型运用于针灸古籍分词任务.实验结果表明,在小样本语料基础下,对比Jieba分词器、BILSTM-CRF和ALBERT-BILSTM-CRF模型,该融合模型展现了更优越的分词性能.
Research on word segmentation technology of acupuncture ancient books based on CmabBERT-BILSTM-CRF

钟昕妤、李燕、徐丽娜、陈月月、帅亚琦

展开 >

甘肃中医药大学信息工程学院,甘肃 兰州 730101

针灸古籍 分词 序列标注 预训练

&&甘肃中医药大学研究生创新基金

2021LDA090022022CX137

2023

计算机时代
浙江省计算技术研究所 浙江省计算机学会

计算机时代

影响因子:0.411
ISSN:1006-8228
年,卷(期):2023.(4)
  • 3