机器学习在用电异常智能识别中的应用研究
作者单位:河北工业大学
学位级别:硕士
导师姓名:周亚同
授予年度:2022年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 080802[工学-电力系统及其自动化] 0808[工学-电气工程] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:机器学习 用电异常识别 不平衡数据处理 半监督学习 深度嵌入聚类
摘 要:电力作为国民经济的生命线,其安全必须得到保障。然而近年来随着社会经济的蓬勃发展以及用电负荷的与日俱增,窃电、欺诈、民电商用等用电异常行为愈加引人注目,并且逐渐呈现出多元化和产业化趋势。这不但损害了电网企业的利益,同时也影响了供电秩序,甚至威胁电网安全。目前解决这一问题的方法多为定期巡检和人工筛查等,运营成本高且效率低,造成了大量资源的浪费。而利用机器学习进行用电异常识别,效率和精度都更高,显著降低了人力和物力成本,对于维护电力系统的安全稳定具有重要意义。本文基于机器学习开展对用电异常识别研究,主要研究内容如下:(1)基于混合采样的不平衡数据用电异常识别电力负荷数据具有数据量大,且异常样本少的特点。正负样本比例不平衡会使学习模型偏向于具有大量样本的正常类别。在异常识别中,学习模型却需要更加关注少量的异常样本,这会导致模型产生偏差,使识别效果变差。针对不平衡数据,本文基于极限梯度提升(e Xtreme Gradient Boosting,XGBoost)模型,提出了结合边界过采样模型(Borderline-SMOTE,BSMOTE)以及局部异常因子(Local Outlier Factor,LOF)的不平衡数据用电异常识别模型。首先利用一维卷积自编码器(One-Dimensional Convolutional Autoencoder,1DCAE)对数据进行特征提取,之后利用BSMOTE对少数的异常样本进行过采样,利用LOF对多数的正常样本进行欠采样,最后利用XGBoost模型对混合数据进行训练,根据异常识别结果对数据混合参数α进行调整,进行迭代优化,得到最终的用电异常识别模型。本模型的AUC(Area Under Curve)指标达到了0.9656,F1分数(F1-score)达到了0.9559,相比1DCAE-BSMOTE-XGBoost等模型,表现出更好的异常识别效果。(2)基于Mix Match的半监督用电异常识别电力负荷数据普遍缺少标注,获得大量标注数据并不现实,因此仅利用少量监督数据的半监督学习更适合这一场景。同时,传统机器学习的精度在某些情况下并不尽如人意,而深度学习模型则展现了更高的识别准确率。针对标注数据少以及识别精度低等问题,本文提出了一种基于Mix Match的半监督异常识别模型,首先利用格拉米角场(Gramian Angular Field,GAFs)将一维时序数据转化为二维图像数据,再利用WGAN(Wasserstein Generative Adversarial Networks)模型对这些图像进行不平衡数据处理。最后输入Mix Match半监督异常识别模型进行训练,实现用电异常识别。本模型的AUC指标达到了0.9023,F1-score达到了0.8912,相比GAFs-WGAN-∏model等模型,有着更高的异常识别精度。(3)基于混合深度嵌入聚类的用电异常行为分类由于用电异常行为具有多样性,而对应解决措施也各不相同,对用电异常行为进行分类,并依据分类结果进行处理,可以有效提高电力部门解决问题的效率。针对传统机器学习在用电异常数据聚类上效果的不足,本文提出了一种混合深度嵌入聚类模型。首先利用1DCAE以及一维变分自编码器(One-Dimensional Variational Autoencoder,1DVAE)对数据分别进行数据降维,并进行特征融合,获取深度特征。再利用K均值聚类模型(K-means)获取聚类中心。最后将数据传入聚类层,根据重构损失和聚类损失迭代更新聚类结果,实现用电异常数据的无监督聚类。本模型的分类适确性指标(Davies-Bouldin Index,DBI)指标达到了0.14,聚类内部评价指标(Calinski Harabaz Score,CH)达到了16071.79,轮廓系数(Silhouette Score,SC)达到了0.90。相比DCEC等模型展现了更高的聚类质量,同时验证了深度嵌入聚类在解决电力数据分类问题上的可行性。