随机森林调整的Copula近似贝叶斯计算—及其在传染病模型中的应用
作者单位:厦门大学
学位级别:硕士
导师姓名:朱蔚萱
授予年度:2022年
学科分类:02[经济学] 0202[经济学-应用经济学] 020208[经济学-统计学] 1004[医学-公共卫生与预防医学(可授医学、理学学位)] 07[理学] 0714[理学-统计学(可授理学、经济学学位)] 100401[医学-流行病与卫生统计学] 070103[理学-概率论与数理统计] 0701[理学-数学] 10[医学]
主 题:近似贝叶斯计算 回归调整 随机森林 Copula函数
摘 要:在统计推断领域,当似然函数无法获得或是难以计算时,我们可以利用基于随机生成机制的抽样方法,也即是近似贝叶斯计算。概括来说,近似贝叶斯计算通过计算观测数据的概括统计量,并和给定不同参数下模拟生成数据的概括统计量比较相似程度,从而后验分布可以用条件密度π(θ|sobs)的估计量来近似。该方法可用作参数估计、模型选择等,也被广泛应用到考古学、生态学、流行病学等研究领域。本文通过引入随机森林回归调整机制来改善高斯Copula近似贝叶斯计算方法,以便达到变量选择,同时提高后验推断的准确性和计算效率。该方法在预处理阶段通过随机森林回归调整估计各后验参数的边际分布;在后处理阶段,通过回归调整得到的各参数的边际分布以及相关系数,借用高斯Copula函数达到还原后验参数联合概率分布的效果。在回归调整阶段,随机森林的使用,既能起到概括统计量的变量选择,也能还原后验参数和概括统计量的非线性关系,提高回归调整的矫正精度;在Copula还原阶段,既能还原后验参数的相依结构,也能起到估计联合概率分布的效果。为了验证该方法的效果,我们模拟生成Toy Example数据,以及流行病学实例。通过与前人的随机森林调整、边际调整、Copula函数等方法对比,借用定性表示的轮廓图、定量表示的KL散度,充分说明了该方法有更好的矫正效果,同时能抵抗一定程度的维度诅咒。此外,我们也使用该方法的随机森林回归调整步骤,通过SEIRS模型,模拟了武汉新冠疫情的动力学传播过程,并做出了短期预测。