计算机技术与发展2020,Vol.30Issue(2) :75-79.

一种基于TF-IDF的朴素贝叶斯算法改进

An Improved Naive Bayes Algorithm Based on TF-IDF

许甜华 吴明礼
计算机技术与发展2020,Vol.30Issue(2) :75-79.

一种基于TF-IDF的朴素贝叶斯算法改进

An Improved Naive Bayes Algorithm Based on TF-IDF

许甜华 1吴明礼1
扫码查看

作者信息

  • 1. 北方工业大学 信息学院,北京 100144
  • 折叠

摘要

目前对以朴素贝叶斯算法为代表的文本分类算法,普遍存在特征权重一致,考虑指标单一等问题.为了解决这个问题,提出了一种基于TF-IDF的朴素贝叶斯改进算法TF-IDF-DL朴素贝叶斯算法.该算法以TF-IDF为基础,引入去中心化词频因子和特征词位置因子以加强特征权重的准确性.为了验证该算法的效果,采用了搜狗实验室的搜狗新闻数据集进行实验,实验结果表明,在朴素贝叶斯分类算法中引入TF-IDF-DL算法,能够使该算法在进行文本分类中的准确率、召回率和F1值都有较好的表现,相比国内同类研究TF-IDF-dist贝叶斯方案,分类准确率提高8.6%,召回率提高11.7%,F1值提高7.4%.因此该算法能较好地提高分类性能,并且对不易区分的类别也能在一定程度上达到良好的分类效果.

关键词

朴素贝叶斯/TF-IDF算法/去中心化/位置信息/特征权重

引用本文复制引用

基金项目

国家自然科学基金(61672040)

出版年

2020
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
被引量14
参考文献量9
段落导航相关论文