面向缺失数据集的因果关系发现研究
作者单位:四川大学
学位级别:硕士
导师姓名:彭舰
授予年度:2023年
学科分类:12[管理学] 02[经济学] 07[理学] 08[工学] 070103[理学-概率论与数理统计] 0202[经济学-应用经济学] 020208[经济学-统计学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 0835[工学-软件工程] 0714[理学-统计学(可授理学、经济学学位)] 0811[工学-控制科学与工程] 0701[理学-数学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:因果推断是人类智能和科学的重要组成部分,是统计学和数据科学的核心问题之一,它被认为是人工智能领域的一次范式革命,是近年来该领域的研究热点之一。简单来说,在一种现象已经发生的情况下,推出因果关系结论的过程,就是因果推断。因果推断在医疗保健、营销、政治科学和在线广告等许多领域都有大量的实际应用,它主要包括因果关系发现和因果效应估计两大分支,其中因果关系发现旨在从观测数据集中估计出一个有向无环图,从而揭示数据集的内在生成机制。关于因果关系发现,现有方法很少考虑到观察数据存在缺失值的情况。然而包含缺失值的缺失数据集是普遍存在的,因此如何推导出缺失数据集的因果图是一个亟待解决的问题。虽然已经有一些关于缺失数据集因果关系发现的研究,但现有的工作主要存在着以下两个问题:1.对缺失数据集的处理。现有的绝大多数研究采用的方式是删除法,即删除含有缺失数据的条目。直接删除会导致可用数据大幅减少,不利于后续因果关系的推导。虽然后续“测试性删除法被提出,但仍然会存在一定程度的数据浪费;2.缺失数据补全和因果关系发现两个过程是割裂的。以往的研究中,将缺失数据补全和因果关系发现两个过程完全视为两个独立的子问题去解决,先对缺失数据集进行补全,随后在补全后的数据集上估计因果图。这一做法忽略了缺失数据补全和因果关系发现的互促特性,信息的流动是单向的从补全到发现,而这种单向的信息流动无法利用两者的互促特性,导致难以最大化利用信息,从而限制模型性能。针对现有工作的不足,本文主要工作如下:1.提出了一种基于深度学习的缺失数据集因果关系发现模型DICD(Deep learningBased Imputation Causal Discovery),此模型借助生成对抗网络实现缺失数据补全,利用生成器和判别器相互抗衡,估计数据集的原始分布,从而实现补全。在因果关系发现任务中,使用基于自注意力机制的编码器-解码器和多层自注意力卷积网络的图生成模型,捕获变量之间的关联。基于扩展贝叶斯信息准则法和强化学习算法中的Actor-Critic算法来搜索最优因果图。2.提出了基于因果反馈的缺失数据集因果关系发现模型CF-ICD(Causal Feedbackbased Imputation Causal Discovery),该模型利用缺失数据补全和因果关系发现互补性的特点,通过因果表征提取实现联合学习缺失数据补全和因果关系发现,这种反馈式的联合学习方式使信息得以循环流动,使两个模块性能相互提升,进而提升模型整体性能。此外,在之前研究的基础上,模型还将因果关系识别问题转换为二分类问题,同时融合编码器-解码器生成模型的结果,在提高模型性能的同时使模型更快收敛。