面向物联网异构设备接入的数据压缩与异常检测方法研究
作者单位:杭州电子科技大学
学位级别:硕士
导师姓名:邬惠峰
授予年度:2023年
学科分类:1305[艺术学-设计学(可授艺术学、工学学位)] 080904[工学-电磁场与微波技术] 0810[工学-信息与通信工程] 13[艺术学] 0809[工学-电子科学与技术(可授工学、理学学位)] 081104[工学-模式识别与智能系统] 08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术] 081001[工学-通信与信息系统] 081101[工学-控制理论与控制工程] 0811[工学-控制科学与工程]
摘 要:随着物联网技术应用在各行各业,连接到物联网的传感设备和智能终端设备激增,数据数量呈爆炸式增长。物联网系统逐渐呈现设备通信协议多样、类型繁多,交互十分复杂等特点。一方面,有限的物理资源与快速增长的数据之间的矛盾成为物联网系统亟待解决的问题。另一方面,数量众多的物联网设备生成的庞大数据用于异常检测以便监测设备的运行状况也变得尤为重要。由于数据的体积增大、数据的结构复杂,使得传统数据压缩算法和传统异常检测方法面临严峻挑战。在此背景下,本文提出一种物联网异构设备接入架构(IOT Heterogeneous Device Access Systems,IHDAS),并对该架构下的数据压缩和异常检测作了深入研究,内容如下:(1)提出一种基于LSTM-β-TCVAE-LZW的混合数据压缩模型,以解决物联网海量数据导致设备存储压力大和边云传输成本高的问题。该模型基于长短时记忆神经网络(LSTM)、改进的变分自编码器(β-TCVAE)和Lempel-Ziv-Welch算法(LZW)进行设计。LSTM用于处理多维序列数据,并提取特征长期依赖关系;β-TCVAE用于生成多维数据的低维潜在表示,完成数据压缩;LZW则进一步无损压缩β-TCVAE生成的低维潜在变量,以提高压缩率。同时,为平衡LSTM-β-TCVAE模型的生成和解耦能力,引入超参数β对β-TCVAE模型变分下界的全相关项(Total-Correlation)进行惩罚,引入超参数γ对索引互信息(Index-Code)与维度KL散度(Dimension-Wise)项进行校正。最终,该模型能够有效实现物联网数据的压缩和重构,并在保证数据质量的同时,最大限度地减少数据存储和传输成本。(2)提出一种基于最小特征集合选择的三层Blending异常检测模型,以解决传统异常检测方法无法全面、精确的对物联网设备数据的各种类型异常进行检测,也无法对含有大量特征的样本进行特征缩减的问题。首先,为剔除冗余特征并减少原始特征个数,结合动态相关性公式提出一种最小特征集合选择算法。该方法评价每个特征与标签之间的重要性程度,并利用多个机器学习模型以求和平均的方式评估特征子集的准确率,以选出最小特征集合。最后,为解决传统单个机器学习模型准确率低,传统融合模型存在训练时间长和容易过拟合等问题,提出一种基于三层Blending的融合模型检测方法,能在最小特征集合的基础上,训练并部署异常检测模型。最后,实验证明了LSTM-β-TCVAE模型在数据编码-解码上的重构误差比LSMT-β-VAE降低了33%,并通过实验得出LSTM-β-TCVAE的最优参数组合。结合LZW后,LSTM-β-TCVAE-LZW混合数据压缩模型的最优压缩因子相较于传统算法提升了3-40倍;在节省空间上,最优结果相较于传统算法提升了25%-36%。从实验结果来看,混合数据压缩模型在拥有高压缩比的同时,也保存了原始数据的重要信息,能够让解压后的数据与原始数据之间的误差很小,非常适用于物联网海量数据的压缩。在物联网数据异常检测上,基于最小特征集合选择的三层Blending异常检测模型筛选出的特征个数相较于原始特征个数减少了4倍;在测试准确率上,相较于传统机器学习模型平均提高12.14%,相较于Stacking和Blending模型分别提高1.32%和2.57%。从实验结果来看,该模型不仅能有效缩减特征个数,还比常见机器学习模型和融合模型具有更高的准确率,能较好完成对物联网设备的异常检测。