黄河流域地级市工业废水排放量的统计分析
作者单位:华北水利水电大学
学位级别:硕士
导师姓名:王志良
授予年度:2022年
学科分类:083002[工学-环境工程] 0830[工学-环境科学与工程(可授工学、理学、农学学位)] 08[工学]
主 题:黄河流域 工业废水排放量 概率分布 空间变异函数 机器学习
摘 要:黄河流域生态保护和高质量发展是国家的重大战略之一,环境污染治理成为黄河流域生态保护的重要任务。关于黄河流域的水环境研究,工业废水排放量的深入统计分析较少。因此本文针对黄河流域地级市的工业废水排放量问题,基于概率分布理论,运用假设检验方法,研究工业废水排放量的分布函数;进一步考虑时空影响,依据空间统计理论,借助探索性空间分析法,分析不同年份的空间统计特征;最后,构建机器学习模型,探寻影响工业废水排放量的驱动因子。主要结论如下:(1)通过工业废水排放量的频率直方图,初步推理其服从伽马分布、对数正态分布和韦伯分布。最终,通过K-S和A-D假设检验方法得出工业废水排放量服从伽马分布。因此工业废水排放量是一种偏态的分布,构建模型时需对数据进行正态化处理。根据概率分布,对黄河流域地级市工业废水的排放进行风险管理。(2)根据2003年至2019年的历史数据,从时间和空间角度分析黄河流域工业废水排放量变化特征。研究发现:时间上,地区生产总值随着时间的演变呈上升趋势,工业废水排放量总体呈现先上升再下降的趋势,在2010年到达拐点。空间上,通过莫兰指数计算得出各地级市的工业废水排放量存在集聚现象。并且随着时间的变化,集聚现象从中游向下游转移;由进一步构造的空间变异函数模型,将工业废水排放量在空间上的变异量化。(3)根据初期研究,结合数据本身具有的时空属性,运用k最近邻、随机森林和支持向量机3种机器学习算法,构建工业废水排放量的回归统计模型。根据5种评价准则的计算结果,k最近邻模型(核函数为逆核)在所有评价准则中表现最佳,其中决定系数R值在测试集中达到0.88。通过对模型的求解,制造业从业人员数、内资企业数、本年应交增值税、人口密度和当年实际使用外资金额为工业废水排放量的主要驱动因子,而不是简单的地区生产总值这一指标。综上所述,本文研究黄河流域地级市工业废水排放的统计特征,并尝试用机器学习的方法去探寻主要的驱动因子。希望通过本研究,为政策制定者提供相应的建议,为政府提供管理黄河流域地级市的工业废水排放的思路,为研究其他城市群的环境污染提供借鉴。