基于知识集成流形的电力设备缺陷文本数据增强方法与应用研究
Data Augmentation and Application of Defect Texts for Power Equipment Based on Knowledge Integration Manifold作者机构:特高压输变电技术与装备山东省重点实验室(山东大学)山东省济南市250061 国网山东省电力公司莱芜供电公司山东省济南市271100
出 版 物:《电网技术》 (Power System Technology)
年 卷 期:2024年第48卷第4期
页 面:1690-1699,I0082,I0083,I0084页
核心收录:
学科分类:1201[管理学-管理科学与工程(可授管理学、工学学位)] 080802[工学-电力系统及其自动化] 0808[工学-电气工程] 08[工学] 0805[工学-材料科学与工程(可授工学、理学学位)] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国网山东省电力公司科技项目(520612220004)
摘 要:当前电网数字化转型升级,电力设备智能运维技术快速发展,在运维过程中积累了大量包含电网重要信息的电力设备缺陷文本。由于文本数据标签稀疏,以及描述语言的模糊性、差异性等问题,电力文本中的运维信息难以被有效挖掘。文章提出了一种针对电力设备缺陷文本的数据增强方法。首先,使用缺陷文本数据集微调预训练模型ERNIE(enhanced representation through knowledge integration),应用多阶段知识掩码策略将电气领域专业知识集成到对缺陷文本的动态编码中;然后在流形假设的基础上基于降噪自动编码器架构设计破坏函数和重建函数,遵循基于信息价值的掩码单元选择策略构建破坏函数,基于微调过的ERNIE构建重建函数,在“破坏-重建过程中获得位于原始数据流形范围内的增强样本;其次对增强数据集基于影响函数和多样性度量进行数据选择,过滤掉数据质量差和重复度高的增强样本;最后通过多层训练框架,将增强数据应用于各种缺陷文本挖掘任务。算例基于真实设备巡检、检修记录构建了电力设备缺陷文本等级分类任务。结果表明,所提出的算法对缺陷文本挖掘效果有较大提升,并且可以广泛灵活地应用在多种电力设备缺陷文本挖掘任务中。