面向海量用电数据的用户行为分析方法研究
作者单位:华北电力大学
学位级别:硕士
导师姓名:王保义
授予年度:2018年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
主 题:k-means聚类 深度信念网络 用电负荷模式 用户行为 海量用电数据
摘 要:随着智能电表的普及,居民用电数据得以高效采集,利用数据挖掘技术识别居民用电负荷模式、分析用户用电行为,对负荷预测、负荷控制、分时电价制定等具有指导性意义。同时,智能电表数据规模不断增长,对传统用电数据的存储以及计算性能提出了新的挑战。近年来,以机器学习理论为基础的聚类算法和深度学习算法及其改进算法在负荷模式识别和用户用电行为分析中得到广泛应用,针对现有用电负荷模式研究侧重于工业、农业、商业等大用户,缺乏对居民用电负荷模式研究的不足,提出了一种基于聚类与深度信念网络的居民用电负荷模式研究方法。首先针对传统的k-means算法中固定特征权重不够灵活的缺点和聚类结果对中心点数非常敏感的问题,对其做了相应改进,可以动态地为属性赋予不同的权重和动态地调整聚类数。然后针对海量用电数据带来的挑战,需要考虑如何尽可能减少数据挖掘的计算复杂度。如果对小区里的每户居民用电负荷模式一一进行分类,便增加了数据处理的计算复杂度。因此只需对小区里的某一类的典型用电负荷模式进行分类便能够得到此类所有居民的用电负荷模式分类,从而减少数据处理的复杂度。接着根据目前大多数采用聚类算法对负荷模式进行分类,针对这种分类方法结果繁多杂乱,目的不够明确,加大了电力公司的运行成本的缺点,本文采用深度信念网络分类器,根据已有分类标准对居民用电负荷模式进行分类。最后根据用电数据进行实验,证明了基于改进k-means聚类与深度信念网络算法分类器模型的有效性和优越性。另外,机器学习算法中存在较多迭代计算场景,云计算技术中的Spark分布式内存计算框架,可高效进行迭代式数据处理,有效提高算法的执行性能。针对深度信念网络计算复杂度较高的问题,研究了云计算体系架构,采用云计算技术中的Spark分布式内存计算框架,对深度信念网络分类器模型进行并行化处理,有效提高了训练样本的执行性能。接着在实验室服务器上采用Cloudera公司的发行版CDH5版本搭建云计算平台,对深度信念网络分类器模型进行并行化性能测试。