摘要
针灸古籍中含有大量通假字、歧义词和专业术语.基于深度学习的分词方法,因静态字向量固有表示和大规模且高质量语料缺乏等问题,限制了分词性能.为缓解上述问题,提出引入预训练策略,在ALBERT模型基础上,利用大量中医古籍再训练得到CmabBERT模型,并构建CmabBERT-BILSTM-CRF融合模型运用于针灸古籍分词任务.实验结果表明,在小样本语料基础下,对比Jieba分词器、BILSTM-CRF和ALBERT-BILSTM-CRF模型,该融合模型展现了更优越的分词性能.
基金项目
&&(2021LDA09002)
甘肃中医药大学研究生创新基金(2022CX137)