计算机研究与发展2021,Vol.58Issue(3) :609-623.DOI:10.7544/issn1000-1239.2021.20200285

基于维度分组降维的高维数据近似k近邻查询

Approximate k-Nearest Neighbor Query of High Dimensional Data Based on Dimension Grouping and Reducing

李松 胡晏铭 郝晓红 张丽平 郝忠孝
计算机研究与发展2021,Vol.58Issue(3) :609-623.DOI:10.7544/issn1000-1239.2021.20200285

基于维度分组降维的高维数据近似k近邻查询

Approximate k-Nearest Neighbor Query of High Dimensional Data Based on Dimension Grouping and Reducing

李松 1胡晏铭 1郝晓红 1张丽平 1郝忠孝1
扫码查看

作者信息

  • 1. 哈尔滨理工大学计算机科学与技术学院 哈尔滨150080
  • 折叠

摘要

针对现有的高维空间近似k近邻查询算法在数据降维时不考虑维度间关联关系的问题,首次提出了基于维度间关联规则进行维度分组降维的方法.该方法通过将相关联维度分成一组进行降维来减少数据信息的损失,同时针对Hash降维后产生的数据偏移问题,设置了符号位并基于符号位的特性对结果进行精炼;为提高维度间关联规则挖掘的效率,提出了一种新的基于UFP-tree的频繁项集挖掘算法.通过将数据映射成二进制编码来进行查询,有效地提高了近似k近邻查询效率,同时基于信息熵筛选编码函数,提高了编码质量;在查询结果精炼的过程,基于信息熵对候选集数据的编码位进行权重的动态设定,通过比较动态加权汉明距离和符号位碰撞次数返回最终近似k近邻结果.理论和实验研究表明,所提方法能够较好地处理高维空间中近似k近邻查询问题.

关键词

近似k近邻/高维数据/关联规则/Hash/

引用本文复制引用

基金项目

国家自然科学基金(61872105)

黑龙江省自然科学基金(LH2020F047)

黑龙江省留学归国人员科学基金(LC2018030)

黑龙江省教育厅科学技术研究项目(12531z004)

出版年

2021
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
被引量5
参考文献量7
段落导航相关论文