基于集成深度学习模型的PM2.5浓度预测研究
作者单位:北方民族大学
学位级别:硕士
导师姓名:丁维福
授予年度:2024年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 081104[工学-模式识别与智能系统] 08[工学] 070602[理学-大气物理学与大气环境] 0706[理学-大气科学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:PM2.5浓度预测 Stacking Informer 图卷积神经网络 注意力机制
摘 要:PM2.5浓度在空气颗粒物中占有相当大的比重,对人类身体健康和生态环境造成了严重影响。高效准确地预测PM2.5浓度可以为政府采取措施提供决策依据,同时能够为大气污染的防控提供参考价值。本文首先分析了北京市2017年4月-2023年2月PM2.5浓度的年、季节、月份、小时和空间变化特征,并通过皮尔逊相关系数、卡方检验以及随机森林的重要性程度确定了PM2.5浓度的影响因素。其次建立了基于单站点的模型实验以分析各模型优缺点,即根据目标站点PM2.5浓度相关数据应用各模型对站点未来12小时PM2.5浓度进行预测,确定集成模型的个体学习器为Informer和长短期记忆网络(Long ShortTerm Memory,LSTM)模型。然后建立了基于多站点的模型实验,即在目标站点相关数据基础上,在相应模型中加入邻近站点PM2.5浓度对站点未来12小时PM2.5浓度进行预测,一方面验证加入邻近站点PM2.5浓度的有效性,另一方面验证Informer和LSTM模型的优势。由于PM2.5浓度变化具有时空统计相关性,为了学习PM2.5浓度的空间关系,本文还通过图卷积神经网络(Graph Convolutional Network,GCN)对目标站点未来12小时PM2.5浓度进行了预测。最后采用Stacking集成策略将Informer、LSTM和GCN模型的预测结果进行了不同的融合以构建各种集成深度学习模型,并将各种集成深度学习模型的预测结果与单一模型进行比较,实验结论如下:(1)时间维度上,北京市PM2.5浓度呈逐年下降趋势,PM2.5浓度在春冬季较高,夏季较低,在秋季和冬季呈现白天低,夜晚高的规律,而在春季和夏季呈现白天高,夜晚低的规律。空间维度上,各站点间PM2.5浓度相关性较强,站点间距离越近相关性越强。通过皮尔逊相关系数、卡方检验和随机森林的重要性程度确定PM2.5浓度的影响因素为历史PM2.5、PM10等6种污染物浓度以及温度和湿度。(2)通过长短期记忆网络(LSTM)、长短期记忆网络-注意力(LSTM-Attention)、序列到序列(Sequence to Sequence,Seq2Seq)、序列到序列-注意力(Seq2Seq-Attention)和Informer模型根据目标站点PM2.5浓度相关数据对该站点未来12小时PM2.5浓度进行预测,结果表明LSTM模型短期预测精度高,而Informer模型长期预测精度高。(3)在目标站点PM2.5浓度相关数据基础上,分别在5种模型中加入邻近站点PM2.5浓度对目标站点未来12小时PM2.5浓度进行预测,结果显示加入邻近站点PM2.5浓度的模型第1小时RMSE降低了4.4%-11.3%,第6小时RMSE降低了3%-4.7%,第12小时RMSE降低了0.9%-3.3%,表明加入邻近站点PM2.5浓度能够有效提升模型的预测精度。在加入邻近站点PM2.5浓度的预测模型中,LSTM模型仍表现出短期预测精度高的优势,而Informer模型长期预测精度更高。(4)四种集成深度学习模型LSTM-GCN、Informer-LSTM、Informer-GCN和Informer-LSTM-GCN模型的预测评价指标均优于单一模型,表明通过Stacking集成策略将不同深度学习模型的预测结果进行融合是有效的。Informer-LSTM-GCN模型的整体预测精度最高,与单一模型相比,该模型第1小时RMSE降低了5.4%-44.1%,第6小时RMSE降低了1.8%-8.4%,第12小时RMSE降低了2.2%-8.9%。InformerLSTM-GCN模型在太原和石家庄市的预测精度同样优于各种单一模型,表明Informer-LSTM-GCN模型具有良好的泛化性。