电力大数据的信息价值密度评价与提升方法研究
作者单位:上海交通大学
学位级别:硕士
导师姓名:王承民
授予年度:2019年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 080802[工学-电力系统及其自动化] 0808[工学-电气工程] 08[工学]
主 题:电力大数据 价值密度 三层过滤机制 K-means算法 FP-network算法
摘 要:智能电网的信息化建设积累了大量数据资源,电力系统已经进入了“大数据时代,而如何提升电力大数据的信息价值密度是目前研究的重点。针对目前价值密度的研究存在缺乏定义和量化指标、提升手段单一导致效果有限的问题,本文围绕价值密度研究课题,从价值密度的定义,评价指标的建立,提升方法的研究,到实验仿真的验证都展开了研究分析。本文提出了电力大数据价值密度的定义及评价指标。其中,价值密度评价指标分别从空间上内存占用、时间上运行速率两个维度计算,并且也计及了数据挖掘结果的误差。本文分别从“脏数据、记录、字段的维度出发,将提升价值密度的技术路线总结为“三层过滤机制——面向数据库的“脏数据过滤、基于改进K-means算法的记录“横向过滤以及基于FP-network算法的字段“纵向过滤,并针对每一层过滤进行了深入研究和阐述。第一层过滤总结了常见的“脏数据类型、产生原因及其相应处理方法;第二层过滤基于多初始聚类中心、多机组并行处理的改进K-means算法实现了记录维度的“横向过滤;第三层过滤提出了FP-network算法,不仅继承了FP-growth算法的优点,而且只需扫描一次数据库,也方便数据库的维护和数据更新,基于该模型实现了字段维度的“纵向过滤。本文借助某省电力公司大数据平台,以某实际配电网的日负荷预测为例进行算例分析,验证了价值密度评价指标的有效性和改进算法的性能优势。结果表明所定义的指标能较好地反映价值密度,提出的“三层过滤机制可以有效提升数据价值密度,特别是第二层聚类算法和第三层关联分析提升效果显著。