计算机技术与发展2022,Vol.32Issue(4) :28-33.DOI:10.3969/j.issn.1673-629X.2022.04.005

基于迁移学习和集成学习的医疗文本分类

Medical Text Classification Based on Transfer Learning and Ensemble Learning

郑承宇 王新 王婷 徐权峰
计算机技术与发展2022,Vol.32Issue(4) :28-33.DOI:10.3969/j.issn.1673-629X.2022.04.005

基于迁移学习和集成学习的医疗文本分类

Medical Text Classification Based on Transfer Learning and Ensemble Learning

郑承宇 1王新 1王婷 1徐权峰1
扫码查看

作者信息

  • 1. 云南民族大学 数学与计算机科学学院,云南 昆明 650500
  • 折叠

摘要

针对医疗文本语义稀疏、维度过高的问题,提出一种基于迁移学习和集成学习的多标签医疗文本分类算法(Trans-LSTM-CNN-Multi,TLCM).该算法采用ALBERT(A Lite BERT)模型内部的多层双向Transfomer结构对大型语料库展开训练,获取通用领域的文本动态字向量表示.然后,利用医学领域目标数据集通过迁移学习和模型微调技术实现ALBERT预训练语言模型在医学领域的文本语义增强.在此基础上,将上述通过迁移学习得到的文本语义增强模型输入到Bi-LSTM-CNN集成学习模块,进一步提取医学文本内容的重要信息特征.最后,基于二元交叉熵损失函数构造文本多标签分类器实现医疗文本分类.实验结果表明,通过迁移学习和集成学习的TLCM文本分类算法能有效提升医疗文本的分类性能,在中文健康问句数据集上整体F1值达到了91.8%.

关键词

迁移学习/集成学习/ALBERT/Bi-LSTM-CNN/医疗文本/健康问句

引用本文复制引用

基金项目

国家自然科学基金(61363022)

云南省教育厅科学研究基金(2021Y670)

出版年

2022
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
被引量1
参考文献量6
段落导航相关论文