基于CmabBERT-BILSTM-CRF的针灸古籍分词技术研究

Research on word segmentation technology of acupuncture ancient books based on CmabBERT-BILSTM-CRF

钟昕妤 ¹李燕 ¹徐丽娜 ¹陈月月 ¹帅亚琦¹

扫码查看

作者信息

1. 甘肃中医药大学信息工程学院,甘肃兰州 730101
折叠

摘要

针灸古籍中含有大量通假字、歧义词和专业术语.基于深度学习的分词方法,因静态字向量固有表示和大规模且高质量语料缺乏等问题,限制了分词性能.为缓解上述问题,提出引入预训练策略,在ALBERT模型基础上,利用大量中医古籍再训练得到CmabBERT模型,并构建CmabBERT-BILSTM-CRF融合模型运用于针灸古籍分词任务.实验结果表明,在小样本语料基础下,对比Jieba分词器、BILSTM-CRF和ALBERT-BILSTM-CRF模型,该融合模型展现了更优越的分词性能.

关键词

针灸古籍/分词/序列标注/预训练

引用本文复制引用

基金项目

&&(2021LDA09002)

甘肃中医药大学研究生创新基金(2022CX137)

出版年

2023

计算机时代

浙江省计算技术研究所　浙江省计算机学会

计算机时代

影响因子：0.411

ISSN：1006-8228

参考文献量3

段落导航