计算机技术与发展2023,Vol.33Issue(11) :20-27.DOI:10.3969/j.issn.1673-629X.2023.11.004

基于属性组权重的分类数据离群检测

Attribute Group Weight-based Outlier Detection for Categorical Data

张凯棋 宋亦静 陈鑫
计算机技术与发展2023,Vol.33Issue(11) :20-27.DOI:10.3969/j.issn.1673-629X.2023.11.004

基于属性组权重的分类数据离群检测

Attribute Group Weight-based Outlier Detection for Categorical Data

张凯棋 1宋亦静 1陈鑫1
扫码查看

作者信息

  • 1. 太原科技大学 计算机科学与技术学院,山西 太原 030024
  • 折叠

摘要

属性分组是高维离群检测中的有效手段之一,可以有效缓解"维度灾难"的干扰,但现有的属性分组离群检测方法未能体现属性组之间的差异性,以及属性组的偏离程度,严重影响了高维离群检测的效果与性能.该文采用信息熵累加和刻画与描述属性组之间的差异性,提出了一种基于属性组权重的分类离群检测方法.首先,根据数据模式频率和编码长度,定义了属性组偏离因子,并将其作为属性组之间的合并依据,有效地刻画了属性组的偏离程度,进一步提高了属性分组过程中的搜索效率;其次,利用信息熵累加和定义了属性组权重,有效地体现了不同属性组之间的差异性;然后,依据属性组权重,重新定义了离群得分函数,并提出了一种基于属性组权重的分类数据离群检测算法;最后,采用UCI,NTU,KEEL和人工合成数据集,实验验证了该离群检测算法不仅具有较高的检测精度和效率,而且也具有良好的可扩展性与伸缩性,可适用于高维海量分类属性数据集的离群检测任务.

关键词

离群检测/属性分组/分类数据/属性组权重/偏离因子

Key words

outlier detection/attribute grouping/categorical data/attribute group weight/deviation factor

引用本文复制引用

基金项目

山西省基础研究计划(202103021223267)

山西省高等学校科技创新计划(2021L297)

太原科技大学科研启动基金(20212053)

太原科技大学科研启动基金(20222107)

出版年

2023
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
参考文献量5
段落导航相关论文