首页|基于k近邻连接的多源数据离群检测及应用

基于k近邻连接的多源数据离群检测及应用

马洋

基于k近邻连接的多源数据离群检测及应用

马洋1
扫码查看

作者信息

  • 1. 太原科技大学
  • 折叠

摘要

工业大数据的兴起推动了智能制造的快速发展,而机械产品质量管理是智能制造中的关键内容之一。影响产品质量的问题主要分为显性问题和隐性问题两大类,隐性问题不能被直接测量、隐含在生产数据中、很难被发现,往往经过不断积累,转化为显性问题,一般具有滞后性。隐性问题不仅间接地影响了产品质量,而且难以追溯质量问题的源头,为后期同类产品的加工留下了隐患。由于产品加工数据来源于不同的采集机制,从不同的角度记录产品加工细节,尽管具有一定的相对独立性,但也存在着较强的关联性,从而构成了制造过程信息的交互网络,并且形成了制造生产过程的多源数据集。离群检测作为大数据挖掘中的主要研究内容之一,可从海量、高维、多源的机械产品加工数据中,有效检测加工过程中的隐性问题。本文围绕“隐性问题的验证确认与关联因素检测”这一关键科学问题,充分利用近邻连接能够有效刻画多源数据中近邻关系的特征,以及集群系统强大的计算能力,对多源离群检测理论、方法与机械产品加工质量分析技术等展开了深入研究。其主要研究成果和创新点如下: 1)提出一种基于加权k近邻和密度估计的离群检测算法OMDE。该算法采用信息熵对属性特征加权处理,通过计算对象之间的加权距离来搜索加权k近邻,并用于对象邻域的度量;结合多尺度邻域信息,对样本点的密度进行估计,形成新的离群因子度量方式,用于局部离群数据的检测。实验结果表明该算法具有较高的离群检测效率与准确性。 2)提出一种基于k近邻连接的多源可信离群检测算法MSCOD。该算法利用k近邻和逆近邻相结合的思想,从两个层面评估多数据源中样本点的密度,并将面向多数据源的离群检测算子outlier-join融合在离群因子度量中,定义了一种新的离群数据对象,即:可信离群,从而有效地实现了多源数据中离群数据对象的验证与确认;在此基础上,给出一种多源可信离群检测算法,并通过大量实验验证了该算法的有效性和实用性。 3)提出一种基于k近邻影响空间的多源关联离群检测算法FRMOD。该算法采用一阶谓词逻辑作为先验信息知识表示技术,并结合谓词公式选择多个数据源的特征属性,实现了无关或冗余的特征属性剪枝,有效地克服了无关或冗余特征属性对高维离群检测性能的不利影响;在此基础上,提出了一种基于k近邻影响空间的多源相关子空间度量与关联离群检测算法,并实验验证了该算法检测关联离群数据对象的可行性和有效性。 4)充分利用MapReduce模型的强大计算能力,提出了多源可信离群并行检测算法PMSCOD和多源关联离群并行检测算法PFRMOD。PMSCOD算法采用Hadoop数据放置策略,将海量数据分发到各数据节点,通过哈希表并行构建、k近邻和逆近邻并行搜索、可信离群识别共三个MapReduce任务,实现了可信离群并行检测任务;PFRMOD算法主要包括:面向多源数据的并行化特征选择、稀疏因子并行化计算、关联离群并行检测三个模块,构成了三个MapReduce任务;在Hadoop集群上,实验验证了PMSCOD算法和PFRMOD算法具有良好的伸缩性和扩展性。 5)以某钢铁企业的海量、高维、多源冷轧辊加工数据为例,在详细分析影响冷轧辊产品质量关联因素的基础上,采用上述多源离群检测算法,设计并实现了冷轧辊加工质量分析原型系统。该系统主要包括:数据预处理、Hadoop环境设置、多源离群检测及质量分析等功能。原型系统运行结果表明了该系统不仅可从冷轧辊加工多源数据中检测出影响产品质量的隐性问题,并对其验证确认,还能有效检测隐性问题的关联因素。 综上所述,本文研究成果不仅为企业生产工艺优化、产品质量改进等,提供了一种有效的产品质量分析新技术,而且也为MapReduce编程模型下的大数据分析处理,提供一种有效的多源离群检测新理论方法与新的实现途径。

关键词

大数据/智能制造/多源离群检测/产品加工质量/k近邻连接

引用本文复制引用

授予学位

博士

学科专业

机械工程

导师

张继福

学位年度

2022

学位授予单位

太原科技大学

语种

中文

中图分类号

TP
段落导航相关论文