数据残缺和样本不平衡的复杂系统异常检测方法及应用
作者单位:国防科技大学
学位级别:硕士
导师姓名:王炯琦
授予年度:2021年
学科分类:0711[理学-系统科学] 07[理学] 071101[理学-系统理论]
主 题:异常检测 长短时记忆网络 多维核密度估计 高斯混合模型 统计推断 滚动轴承系统 卫星SADA系统
摘 要:复杂系统是由多个不同子系统按照一定的结构连接而成。随着科技能力和认知水平的提升,系统复杂性日益增强,一方面使得复杂系统在控制精度、运行速度和智能程度等方面取得了长足的发展,但同时带来了复杂系统的可靠性问题。对复杂系统异常的及时检测、准确诊断和安全处理,能够消减系统的运行风险,避免系统瘫痪或报废造成的重大经济损失和人员伤亡。当前,传感器信息、计算机等技术的高速发展,使得采集、存储和处理大量的数据成为现实。这些数据提供了比以往更加全面的信息,为更加精准的异常检测提供支撑。但其中找寻异常数据也并非易事,其主要挑战在于以下两点:数据缺失。数据缺失可能改变数据的分布特征,给后续异常检测任务带来不可忽略的干扰。样本不平衡。样本不平衡使得分类算法过多关注多数类别,从而使得对少数样本,即异常样本的检测性能下降。针对上述问题,本文围绕复杂系统的异常检测方法,从构建更加可信的缺失数据补全方法和构建更加精准的模式表征方法两个方面的开展研究,提出了基于长短时记忆网络的数据补全方法和基于核密度估计以及高斯混合模型的模式库表征方法。主要创新工作在于:1)针对非线性系统存在观测数据部分缺失的情况,传统数据建模方法存在拟合能力弱、预测效果差等问题,本文引入了基于长短时记忆(LSTM)网络的时序数据建模与补全方法,借助LSTM网络的非线性数据建模能力,使得其具备更好的数据补全效果。2)针对复杂系统在多种平稳工作模式下切换的情况,提出了基于高斯混合模型的系统异常检测方法,该方法基于系统的平稳特征进行聚类分析与建模,继而利用EM算法求解高斯混合模型中的未知参数,并且利用可区分性、稳定性、拟合优良性来确定最优的聚类簇数,提升模式库构建的可信度。3)给出了多维核密度估计的最优带宽定理和带宽收敛性定理,为最优核密度估计算法提供了理论依据,据此提出了基于最优核密度估计和JS散度分布的异常检测算法,有效提高了对异常,特别是未知异常的诊断性能。4)开展了以滚动轴承和卫星太阳能帆板驱动机构(SADA)系统数据为对象的异常检测试验,验证了上述方法在数据残缺和样本不平衡情况下的复杂系统异常检测性能。