纵向数据公因子模型及其参数估计
作者单位:浙江大学
学位级别:硕士
导师姓名:苏中根;张荣茂
授予年度:2014年
学科分类:0202[经济学-应用经济学] 02[经济学] 020208[经济学-统计学] 07[理学] 0714[理学-统计学(可授理学、经济学学位)]
主 题:纵向数据 公因子模型 最小二乘估计 lasso惩罚 因子分析法
摘 要:纵向数据研究近年来已经受到广泛关注,在医学和社会学等领域中经常会遇到纵向数据.本文想要在一般线性模型的基础上建立新的研究纵向数据的模型. 一般的线性模型可表示为:yi=xiβ+ei(i=l,…n),模型中xi是影响响应变量yi的己知协变量,ei,是随机误差.然而在实际生活中,影响yi的变量通常不能全部观测到或者全部找到,存在潜在因子的情形是普遍的,ei中可能存在潜在因子zi.因此本文考虑在一般线性模型的基础上引入公因子模型:ei=Azi+εi(i=l,…n).模型中zi为潜因子,A为因子载荷矩阵.公因子模型yi=Azi+εi已经被大量用于研究向量时间序列,因为纵向数据与向量时间序列具有相似性,所以将公因子模型用于纵向数据的研究具有一定的合理性. 基于上述考虑,本文建立了新的二维纵向数据公因子模型:yi=xiβ+Azi+εi(i=1,…n),其中,β和A是未知参数,它们的估计均基于全体数据;并假设xi为已知协变量,Zi为潜变量(公因子)lεi为随机误差.在己知xi和yi的基础上,对β,A,zi及其维度r进行估计. 本文还建立了新的三维纵向数据公因子模型.yif=AZif+εif(i=l,—n;j=l,…p),其中均=(yij(1)),yij(2),…yij(p))T,zij=(Zij(1),Zij(2)),…zij(r))T,εij=(εij(1)),εij(2)),…εij(p))rzij为r维潜在的公因子,yij为p维可观测的响应变量,εij为随机误差.在己知yij的基础上对A,zij及其维度r进行估计. 本文在一般线性模型的基础上考虑了潜变量的情形,首次提出将公因子模型yi-xiβ=Azi+εi应用到纵向数据的研究中,建立了新的二维纵向数据公因子模型和新的三维纵向数据公因子模型,并且将模型应用于研究高维纵向数据.对于二维纵向数据公因子模型,本文提出用两步估计法进行估计,第一步采用最小二乘法估计固定系数β,即先将(Azi+εi)看做残差,通过使残差平方和最小来获得固定系数的最小二乘估计;第二步采用因子分析法来估计公因子zi及其因子载荷矩阵A,即通过对第一步所得残差的协方差矩阵进行因子分析,分别建立公因子及其因子载荷矩阵的估计.对于三维纵向数据公因子模型,本文采用因子分析法来估计公因子及其因子载荷矩阵.在理论性质方面,在一定条件下,分别证明了β为有限维时最小二乘估计的渐近正态性(见定理1)、β为高维时lasso最小二乘估计的相合性(见定理2)以及因子分析法所得估计的相合性(见定理3,定理4以及定理5).文章的模拟分析部分展示了β为有限维时最小二乘估计的准确性,β为高维时lasso方法能准确的选择变量并进行有效的估计;在不同高维数据集下,A的估计效果都比较好.