基于高斯过程回归的时序预测算法研究与应用
作者单位:浙江理工大学
学位级别:硕士
导师姓名:任佳
授予年度:2020年
学科分类:02[经济学] 0202[经济学-应用经济学] 020208[经济学-统计学] 07[理学] 0714[理学-统计学(可授理学、经济学学位)] 070103[理学-概率论与数理统计] 0701[理学-数学]
主 题:时间序列 高斯过程回归 自回归项自动选择 最大信息系数 集成模型
摘 要:时间序列分析在工程、气象、经济、金融等领域均有广泛应用,其建模和预测方法的研究一直是各领域关注的热点。以自回归模型为代表的线性回归模型是过去几十年来时间序列预测的主要方法,近年来以高斯过程回归(GPR)为代表的非线性回归方法受到广泛的关注,但同时基于GPR的时序预测方法仍存在一些关键问题有待解决:比如核函数的选择,自回归阶次的自动确定以及模型的过拟合等问题,本文即针对GPR时序建模的上述相关问题开展研究。本文的研究得到了浙江省自然科学基金的资助,主要的研究内容和成果总结如下:(1)提出一种基于最大信息系数(MIC)的自回归项自动选择方法。在传统方法中,自回归阶次主要通过自相关函数和偏自相关函数法进行筛选或者通过包裹式特征选择方法获得,前者只能对线性关系进行评价,不适用于高斯过程回归等非线性模型,后者虽然能够取得较好的结果,但需要多次的测试和验证,效率较低。本文提出一种基于MIC的自回归项选择方法,该方法不仅能够对复杂非线性相关关系进行度量,而且能够快速完成过滤。测试验证结果也表明所提方法能够高效完成过滤筛选,并且能够帮助高斯过程回归模型取得更高的预测精度。(2)提出一种基于引导聚集算法的集成高斯过程回归模型。集成模型的提出一方面能够缓解基于MIC的特征选择方法容易收敛到局部最优解的问题,另一方面可以引入随机因素,降低过拟合的风险。本文以高斯过程回归模型为基模型,并引入列采样方法,针对每一个采样的样本子集进行回归项过滤之后分别用于基模型的训练,得到多组预测结果,同时由于高斯过程回归模型能够得到预测的后验方差,可以作为天然的模型评价准则,所以本文基于每个基模型的后验方差对各个模型的预测结果进行加权融合,这样能够丰富搜索空间,降低过拟合风险,提高模型预测效果。(3)构建了数据分析平台,实现数据的存储、管理、可视化以及时序分析算法的嵌入。首先构建了软件平台与OneNET云端的通信渠道,实现数据的传输和保护;其次开发了本地数据库用于数据的存储和分析,通过对数据来源进行归纳存储,建立了嵌入式百度地图的地理位置可视化界面和数据查询界面;最后针对本地数据库存储的时间序列数据,使用本文所提出的预测算法进行分析预测,并以图表的方式对预测结果进行可视化展示。