摘要
一对观测变量之间的因果关系的推断是科学中的基本问题,基于观测数据分析提出因果关系的方法对于产生假设和加速科学发现具有实用价值.利用传统的因果推断算法从高维数据中学习因果网络结构和提高学习准确率是目前研究的难点.在引入耦合相关系数(copula dependence coefficient,CDC)的基础上,提出了一种适用于高维数据的两步骤因果推断算法.首先该算法利用优于最大信息系数的CDC对变量间的关联度进行检测,寻找目标节点的父子节点集;然后使用非线性最小二乘独立回归算法,为图中的目标节点与其父子节点之间标注因果方向;最后迭代所有的节点完成完整的因果网络结构.实验结果表明,该算法提高了高维数据下因果网络结构学习的准确率.同时在大样本数据集中,该算法的时间复杂度优于传统算法,对异常值具有鲁棒性.
基金项目
中央军委科技委创新特区项目(17-163-15-XJ-002-002-04)
国家自然科学基金(11805093)
湖南省教育重点项目(17A185)
湖南省自然科学基金资助项目(2019JJ0486)