信息技术与信息化2024,Issue(6) :76-84.DOI:10.3969/j.issn.1672-9528.2024.06.017

基于组合关联分析的符号数据分类方法

崔丽娜
信息技术与信息化2024,Issue(6) :76-84.DOI:10.3969/j.issn.1672-9528.2024.06.017

基于组合关联分析的符号数据分类方法

崔丽娜1
扫码查看

作者信息

  • 1. 长治幼儿师范高等专科学校信息技术部 山西长治 046000
  • 折叠

摘要

分类是数据挖掘中一项非常重要的任务,目前大多分类算法处理的都是数值数据,少数处理符号数据的算法泛化性能不佳.针对这个问题,提出了一种基于组合关联分析的符号数据分类方法(categorical data classification approach based on combinatorial association analysis,CD_CAA).通过引入提升度,将符号数据的属性与标签关联起来转化成数值数据后训练模型;在预测过程中,将测试数据与所有可能的类标签进行组合关联分析,将一个实际的测试样本转化为多个虚拟的测试样本,综合分析虚拟样本的假设类别标签,最终得到真实的预测标签.通过组合关联分析,将符号数据转换为数值数据,而转化过程所采用的提升度恰好反映了同一属性对不同类别的不同贡献,提高了模型泛化性能.实验结果表明,与传统机器学习方法相比,所提出的CD_CAA方法能更好地处理符号数据分类任务.

关键词

符号数据分类/CD_CAA方法/提升度/组合关联分析/虚拟样本

引用本文复制引用

出版年

2024
信息技术与信息化
山东电子学会

信息技术与信息化

影响因子:0.29
ISSN:1672-9528
段落导航相关论文