基于机器学习的复合式干法分选机分选指标预测研究
作者单位:中国矿业大学
学位级别:硕士
导师姓名:董良
授予年度:2023年
学科分类:12[管理学] 081901[工学-采矿工程] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 0819[工学-矿业工程] 08[工学] 081104[工学-模式识别与智能系统] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:复合式干法分选机 数据预处理 机器学习 模型优化 系统设计与实现
摘 要:我国是世界第一煤炭生产和消费大国,以煤炭为主的能源结构支撑了我国经济的高速发展。我国煤炭资源品位较差,含矸量较大,煤炭的高效清洁利用成为国家的长远战略要求。选煤作为煤炭清洁利用技术的源头,是实现“二十大报告中深入推进能源革命,加强煤炭清洁高效利用目标的重要手段之一。我国煤炭资源与水资源的分布比例成反比,我国2/3的煤炭资源分布在干旱缺水缺水的西北部地区,且低品质煤的储量较大,迫切需要一种适合缺水地区煤炭分选的有效方法。复合式干法分选机作为我国干法选煤领域的创新技术,以不用水、工艺简单、生产成本低的特点获得了西北部干旱缺水地区煤矿的青睐。灰分、发热量和产率是评价煤炭品质的几个重要指标,决定了煤炭的价值,现有的获取指标的方法普遍存在滞后性的问题,不能实时反映当前煤质。综合复合式分选机多方面特征通过机器学习的方法以实现对产品灰分、发热量、产率的预测。因此,本文旨在实现分选指标的实时检测。本论文具体研究工作如下:(1)本文针对复合式干法分选机分选指标数据集采集过程中数据分布不平衡以及数据稀缺现象,采用Cubic splines三次样条插值数据增强方法对试验数据集进行平均扩充,很好地解决了模型在预测分布不均匀数据集时容易产生过拟合的问题。而针对数据集噪声影响以及数据集不规范等现象,本文提出了对数据集进行Z分数数据标准化以及Savitzky-Golay滤波降噪处理,仿真实验表明,Savitzky-Golay滤波降噪方法有效地降低了模型的MSE以及MAE;特征变量之间的强相关关系意味着对模型的贡献相似,进而增加模型计算负担甚至影响模型精度,本文引用皮尔逊相关系数生成相关矩阵热图探究特征变量之间的相关性,以剔除强相关特征变量进而实现特征降维。结果表明,特征变量之间不存在强相关关系(|r|=0.8~1.0),因此,试验数据集中特征变量都得以保留。(2)针对机器学习的建模工作,本文基于Kfold交叉验证划分数据集的方法将上述经预处理获取完整、准确的数据集进行训练集和测试集划分,折叠次数K=5,测试集划分比例为20%;其次选择随机森林RF、支持向量机回归SVR、BP神经网络、Adaboost集成学习器四种机器学习回归模型分别进行建模试验。仿真试验结果表明,随机森林RF与BP神经网络模型在分选指标预测建模过程中均表现出了较好的性能,但是随机森林RF的训练时间要明显短于BP神经网络,因此综合实际分选过程分析,本文最终选择随机森林RF模型作为复合式干法分选机分选指标预测的基模型。(3)本文针对建模过程中在模型超参数选择上存在主观性进而影响模型精度并且传统优化算法易陷入局部最优的问题,提出了基于粒子群优化算法PSO和模拟退火优化算法SA的改进优化算法:改进粒子群优化算法IPSO以及改进模拟退火优化算法ISA。其宗旨是加强算法在迭代前期的搜索能力以及搜索后期的收敛能力,防止算法陷入局部最优解。之后,通过四种Baseline测试函数对IPSO以及ISA进行可行性验证,结果表明,在Baseline测试函数上IPSO与ISA均较PSO于SA有着一定的增强,说明本章提出的IPSO和ISA是有效果的。接着将IPSO和ISA分别与随机森林RF模型和数据集预处理技术相结合生成融合预测模型并应用于需要优化的产率数据集上,结果表明IPSO-RF相较于ISA-RF的优化效果更好,其适应度函数值(MSE)相对降低了4.02%,并且在训练时间上IPSO-RF也要比ISA-RF更好,相对缩短了14.02%。因此综合考虑本文选择IPSO-RF作为融合预测模型。(4)最后本文将构建的IPSO-RF融合预测模型作为复合式干法分选机分选指标预测系统中的预测模型,系统整体采用前后端架构基于***前端框架、Flask后端框架以及SQLite数据库设计并实现系统搭建过程;该系统主要由Web客户端、服务器以及数据库三部分构成,用户在Web客户端发送请求指令生成对应URL连接并通过HTTP协议向服务器发送请求;服务器根据对应请求通过API调用对SQLite数据库进行访问获得具体数据,并返回给服务器按照具体任务进行相应计算实现具体的业务逻辑;最后,服务器将计算后所得到的数据经***框架可视化操作打包生成HTML文本形式发送回Web客户端向用户进行结果展示;系统主要包括用户登录、分选数据管理以及分选指标预测功能。该论文共计图57幅,表34个,参考文献106篇