计算机时代2023,Issue(4) :11-15.DOI:10.16644/j.cnki.cn33-1094/tp.2023.04.003

基于CmabBERT-BILSTM-CRF的针灸古籍分词技术研究

Research on word segmentation technology of acupuncture ancient books based on CmabBERT-BILSTM-CRF

钟昕妤 李燕 徐丽娜 陈月月 帅亚琦
计算机时代2023,Issue(4) :11-15.DOI:10.16644/j.cnki.cn33-1094/tp.2023.04.003

基于CmabBERT-BILSTM-CRF的针灸古籍分词技术研究

Research on word segmentation technology of acupuncture ancient books based on CmabBERT-BILSTM-CRF

钟昕妤 1李燕 1徐丽娜 1陈月月 1帅亚琦1
扫码查看

作者信息

  • 1. 甘肃中医药大学信息工程学院,甘肃 兰州 730101
  • 折叠

摘要

针灸古籍中含有大量通假字、歧义词和专业术语.基于深度学习的分词方法,因静态字向量固有表示和大规模且高质量语料缺乏等问题,限制了分词性能.为缓解上述问题,提出引入预训练策略,在ALBERT模型基础上,利用大量中医古籍再训练得到CmabBERT模型,并构建CmabBERT-BILSTM-CRF融合模型运用于针灸古籍分词任务.实验结果表明,在小样本语料基础下,对比Jieba分词器、BILSTM-CRF和ALBERT-BILSTM-CRF模型,该融合模型展现了更优越的分词性能.

关键词

针灸古籍/分词/序列标注/预训练

引用本文复制引用

基金项目

&&(2021LDA09002)

甘肃中医药大学研究生创新基金(2022CX137)

出版年

2023
计算机时代
浙江省计算技术研究所 浙江省计算机学会

计算机时代

影响因子:0.411
ISSN:1006-8228
参考文献量3
段落导航相关论文