咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于密度聚类的工业数据异常点发现方法的研究与实现 收藏
基于密度聚类的工业数据异常点发现方法的研究与实现

基于密度聚类的工业数据异常点发现方法的研究与实现

作     者:米改娜 

作者单位:济南大学 

学位级别:硕士

导师姓名:周劲;李岳炀

授予年度:2022年

学科分类:12[管理学] 083002[工学-环境工程] 0830[工学-环境科学与工程(可授工学、理学、农学学位)] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 

主      题:密度峰值聚类 用电数据 异常检测 数据挖掘 

摘      要:工业推动了人类社会的发展和进步,同时也推进了生产力的发展。但是在工业生产过程中会产生大量的污染物,如各类废气、污水和废渣等。这些污染物的排放会对环境造成极大的危害。其中各种工业废气的排放及影响是最大的。随着数据采集系统的普及,海量的工业用电信息得以采集,为工业生产的大数据分析环节提供了坚实的数据基础。通过对污染源厂区生产设施和污染物治理设施(以下简称治理设施)的用电数据进行异常检测和分析,及时发现污染治理设施的未启动、降速、空转、低频运行等异常情况并警报工作人员处理,可以避免废气处理不达标排放的问题。本文针对治污设施用电数据检测问题,设计了两种异常检测算法,具体内容如下:首先,以经典的密度峰聚类算法(Density Peak Clustering,DPC)为基础,设计了结合K近邻(K-Nearest Neighbor,KNN)和局部离群因子(Local Outlier Factor,LOF)改进的密度峰值异常检测算法(KL-DPC)。原始DPC算法对截断距离参数的设置较敏感,截断距离设置不当会导致初始类簇中心出现较大偏差,针对此问题,本文结合K近邻思想重新定义了局部密度和截断距离的计算公式,对不同数据集都能生成自适应的截断距离,并且计算出的局部密度更符合样本的真实分布。然后,改进距离参数,使类簇中心和异常点在决策图中的区分更加明显方便选取。最后,充分考虑样本的局部特征,引入离群因子概念用于异常点二次检测,提高算法异常检测准确率。实验结果表明,该算法在人工数据集和加州大学欧文分校数据集(University of California,Irvine,UCI)的表现比DPC、DBSCAN(Density-Based Spatial Clustering of Applications with Noise)和DPC-KNN算法要优秀,能有效提高异常检测准确率和质量。然后,在KL-DPC算法的基础上为了能更加准确的区分真正的异常点和类簇的边界点,本文设计了基于互邻居和亲和度改进的异常检测算法(MA-DPC)。首先,计算每个点的k近邻域邻居和互邻居,根据互邻居和k近邻域邻居计算样本点间的亲和度,得到一个亲和度矩阵,根据亲和度矩阵计算样本的局部密度。由互邻居的概念可知,越是稀疏的点互邻居越少或者没有,和k近邻域点的距离也越远,相互间的亲和度也越小,最终计算出的局部密度值也越小,相反的越是稠密点计算出的局部密度值也越大。密度计算结果符合数据集样本点的分布,同时也拉大了真正的异常点和类簇边界点密度上的差距。为了直观的测量这种差距,本文选取了不同类型数据集,计算MA-DPC算法对这些数据集处理得到的决策图中异常点和正常点之间的分散度,并与原始DPC算法作比较,验证了MA-DPC算法的优越性。最后,引入逆k近邻的概念,在KL-DPC的基础上计算k近邻域点和逆k近邻域点的密度和被检测点的密度比,进一步增大了异常点和类簇边界点的差距,提高了算法的异常检测率。最后,在MA-DPC算法的基础上又有所创新,提出一种无人工干涉的、自适应的异常检测算法MA-A-DPC。结合算法、用电数据的特点(相电压、相电流和总有功功率之间的关系)以及无效治污的功率阈值设计了新的异常数据判别规则。通过对治污设施用电数据的异常检测,可以及时发现治污设施未正常开启、已关闭、降速、空转、低频运行等异常情况。通过对生产设施和治污设施关联分析,从污染物排放监控的角度出发进行挖掘,可以发现是否存在生产设施和污染治理设施的高生产低治污或不治污等违规情况。最后,运用QT designer平台和Pycharm平台的通信,实现检测结果可视化平台,为企业和环保监督组织提供必要的技术支持。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分