首页|融合条件熵和TF-IDF的过采样方法

融合条件熵和TF-IDF的过采样方法

扫码查看
针对非均衡数据带来的分类器对少数类样本学习不充分的问题,提出融合条件熵和TF-IDF的过采样方法.该方法首先指定参数,组合数据特征,然后计算每种组合方式下的条件熵,判断每种组合条件下类的不确定性,同时为了避免低词频带来的噪音数据,将条件熵结果乘上1/TF-IDF因子,再将结果按升序排序,最后结合参数选定过采样依据的特征组合,用以构造新数据,使正负样本平衡.将所提方法在7个不均衡数据集上进行实验仿真,结果表明,所提方法比其他方法在F-measure、G-mean和AUC等评价指标上均有一定提高.
Oversampling method combining conditional entropy and TF-IDF

胡宏章、邱云飞、郭蕾

展开 >

辽宁工程技术大学软件学院,辽宁 葫芦岛 125105

非均衡数据 条件熵 TF-IDF 过采样

2023

计算机时代
浙江省计算技术研究所 浙江省计算机学会

计算机时代

影响因子:0.411
ISSN:1006-8228
年,卷(期):2023.(6)
  • 1
  • 3