基于数据驱动的用电异常识别技术研究
作者单位:南京邮电大学
学位级别:硕士
导师姓名:江兵
授予年度:2023年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 080802[工学-电力系统及其自动化] 0808[工学-电气工程] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:机器学习应用 用电异常识别 缺失值插补 时间序列生成 特征提取与选择
摘 要:电力作为国民经济高质量发展的重要支撑,在智能电网的快速发展的过程中,其安全必须得到保障。然而以窃电为主的用电异常行为,在近些年来随着经济的发展和用电负荷的逐步递增,成为影响电力系统发展的一个不容忽视的因素,并且呈现出一种产业化的趋势。用电异常行为的泛滥,严重损害了电力企业的经济利益,影响着公正公平的供电秩序,甚至对电网的安全运行造成威胁。智能电表的普及使用,使得电力计量系统累积了海量的用电数据,利用基于数据驱动的方法高效地进行用电异常识别,可以提高电力系统工作人员处理异常行为的效率,改变当下传统的定期人工巡检方式耗时耗力的现状,进而提高整个电力系统的运行效率。本文从数据驱动的用电异常识别方法中存在的问题着手,从解决数据集存在大量缺失值和缺少有标记的异常样本两个实际问题出发,在此基础上建立了一种适用于电力负荷数据的有监督机器学习模型,实现了用电异常的识别。首先,本文针对如何处理电力数据集中的缺失值开展研究,提出了一种基于聚类和K近邻的用电负荷数据缺失值填充模型。模型利用K-means聚类挖掘用电数据的潜在模式,根据聚类结果对KNN插值过程进行改进调整,并在KNN运行过程中对K值进行动态优化,在有序进行KNN插值时实现了K值的自适应。实际数据的验证表明,本文的用电数据缺失值填充模型在不同指标上的表现都优于对比模型,对电力负荷数据的缺失值实现了更可靠的估计。接着,本文引入具有强大时间序列生成能力的Time GAN网络,解决缺少有标记用电异常样本的问题,并将其与OCSVM结合,提出了基于Time GAN和OCSVM的异常用电负荷数据增广模型。使用真实的用电异常样本训练Time GAN和OCSVM,将Time GAN生成的序列输入OCSVM进行严格地分类筛选,通过选择的序列经过TSNE验证后,可用于扩充用电异常样本的数量。经验证,模型生成的数据具有一定的可用性。最后,结合前文的研究,本文建立了基于特征工程XGBoost的监督学习用电异常识别模型。该模型利用Tsfresh和改进的Boruta算法,针对XGBoost广泛提取和选择了对分类决策有贡献的时间序列特征,避免了仅采用少量人工特征导致的模型适用性低的问题。选择出的特征用于训练XGBoost分类模型,实现了根据用电负荷数据的时间序列特征进行用电异常识别的目的。在SGCC用电异常数据集上,将正常样本作为正类,异常样本作为负类的算例仿真表明:本文所提方法达到了0.9329的Accuracy、0.9371的Specificity和0.9505的AUC,并且Kappa系数取得了0.8722的分数,相对于比较模型,表现出了更好的识别能力。