计算机技术与发展2020,Vol.30Issue(8) :129-133.DOI:10.3969/j.issn.1673-629X.2020.08.022

基于两阶段特征选择的医疗敏感文本分类

Medical Sensitive Text Classification Based on Two-stage Feature Selection

陈春玲 姜慧敏 郭永安
计算机技术与发展2020,Vol.30Issue(8) :129-133.DOI:10.3969/j.issn.1673-629X.2020.08.022

基于两阶段特征选择的医疗敏感文本分类

Medical Sensitive Text Classification Based on Two-stage Feature Selection

陈春玲 1姜慧敏 1郭永安2
扫码查看

作者信息

  • 1. 南京邮电大学 计算机学院、软件学院,江苏 南京 210023
  • 2. 南京邮电大学 通信与信息工程学院,江苏 南京 210003
  • 折叠

摘要

为完成对医疗数据的敏感性分类,采用文本分类技术从对医疗敏感数据的分类的角度对医疗信息隐私保护进行了研究.在传统的医疗文本分类基础上,提出基于LSI-TF-IDF两阶段特征选择的文本分类方法对医疗文本数据进行敏感性分类.分别采用基于TF-IDF的传统文本分类方法和基于LSI-TF-IDF的两阶段特征选择的文本分类方法对糖尿病文本数据进行敏感性分类,利用朴素贝叶斯、KNN、SVM三个分类器进行实验比较,采用准确率、召回率和F1值作为评价标准.实验结果表明,基于LSI-TF-IDF两阶段特征选择的文本分类方法较之基于TF-IDF的传统文本分类方法在准确率、召回率和F1值上均有所提升.证明了该方法在医疗文本数据的敏感性分类上具有更好的分类效果.

关键词

医疗数据/隐私保护/特征选择/敏感数据/文本分类

引用本文复制引用

基金项目

国家重点研发计划(2018YFC1314903)

出版年

2020
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
被引量1
参考文献量4
段落导航相关论文