面向高维时间序列的因果分析方法
作者单位:山东财经大学
学位级别:硕士
导师姓名:刘慧
授予年度:2024年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
摘 要:时间序列的因果关系分析是数据挖掘领域的研究热点之一。通过深入分析可观测变量间的联系,能够精准识别出对模型构建贡献度大的关键变量,从而有效剔除冗余和无关信息,显著提高数据分析的效率和精确度。通过了解变量之间的因果关系,可以更好地理解系统中的驱动响应关系,从而优化决策制定,提高资源利用效率。近年来,随着大数据时代的来临,各个领域的数据维度不断增加,高维时间序列数据逐渐成为一种常见且重要的数据类型。这一变化不仅增加了数据挖掘的复杂性,也对其提出了更高的挑战。然而,目前大部分因果分析研究仍然集中于二元或多元时间序列,对于高维和超高维的时间序列因果分析缺少有效的处理方法。为了更好地应对高维时间序列数据的挑战,需要进一步深入研究因果关系的本质,探索更有效的分析方法和算法。因此,本文将因果分析方法拓展至高维,并针对线性和非线性时间序列都提出了有效的解决方法,主要工作如下:第一:由于传统Granger因果分析方法无法准确区分直接因果关系和间接因果关系,且高维时间序列在向量自回归(Vector Auto-Regressive,VAR)模型中容易受到维度灾难的影响,难以在高维时间序列中准确地发现因果关系,本文将分位数因子模型与条件Granger因果关系分析相结合,提出QFM-CGC算法来处理高维数据的因果分析。QFM-CGC算法将降维技术运用在降低VAR模型条件项的计算中,减少VAR模型中待估计系数,再对降维后的VAR模型重新进行条件Granger因果分析,避免传统方法受到的维度灾难的影响。在两组不同维度变量的线性仿真系统和两组现实数据集上与基准方法和经典方法进行了比较,实验结果验证了该方法的有效性。第二:在第一个实验的基础上将因果分析方法拓展至非线性时间序列。基于非均匀嵌入方案的因果分析是检测时间序列因果关系的重要方法。尽管使用非均匀嵌入的因果分析具有实际优势,但仍有一些关键缺点需要克服。一个缺点是维数的诅咒,随着嵌入空间的维数增加,对互信息(mutual information,MI)的估计不准确;另一个缺点是如果初始嵌入的不准确将对结果产生很大影响。为了解决这些问题,本文提出了一种基于信息论的非均匀嵌入新方法,称为LC-NUE,用于检测高维时间序列的因果关系。为了克服计算高维条件互信息(conditional MI,CMI)所带来的问题,特别是随着维度的增加熵率的估计逐渐减少到零的难题,本文采用低维近似算法来计算CMI,从而有效克服上述挑战。同时,在嵌入前加入希尔伯特-施密特独立性检验,确保嵌入的准确性。在两组线性与非线性仿真系统和两组现实数据集上进行试验,实验结果验证了该方法的有效性。