一种双层贝叶斯模型:随机森林朴素贝叶斯

A Two-Layer Bayes Model:Random Forest Naive Bayes

张文钧 ¹蒋良孝 ²张欢 ¹陈龙¹

扫码查看

作者信息

1. 中国地质大学计算机学院武汉 430074
2. 中国地质大学计算机学院武汉 430074;智能地学信息处理湖北省重点实验室(中国地质大学) 武汉430074
折叠

摘要

文本分类是自然语言处理领域的一项基础工作.文本数据的高维性和稀疏性,给文本分类带来了许多问题和挑战.朴素贝叶斯模型因其简单、高效、易理解的特点被广泛应用于文本分类任务,但其属性条件独立假设在现实的文本数据中很难满足,从而影响了它的分类性能.为了削弱朴素贝叶斯的属性条件独立假设,学者们提出了许多改进方法,主要包括结构扩展、实例选择、实例加权、特征选择、特征加权等.然而,所有这些方法都是基于独立的单词特征来构建朴素贝叶斯分类模型,在一定程度上限制了它们的分类性能.为此,尝试用特征学习的方法来改进朴素贝叶斯文本分类模型,提出了一种双层贝叶斯模型:随机森林朴素贝叶斯(random forest naive Bayes,RFNB).RFNB分为2层,第1层利用随机森林从原始的单词特征中学习单词组合的高层特征.然后将学习到的新特征输入第2层,经过一位有效编码后用于构建伯努利朴素贝叶斯模型.在大量广泛使用的文本数据集上的实验结果表明,提出的RFNB模型明显优于现有的最先进的朴素贝叶斯文本分类模型和其他经典的文本分类模型.

关键词

朴素贝叶斯/随机森林/特征学习/特征表示/文本分类

引用本文复制引用

基金项目

出版年

2021

计算机研究与发展

中国科学院计算技术研究所中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心

影响因子：2.649

ISSN：1000-1239

被引量5

参考文献量2

段落导航