咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于无日志解析的异常检测算法研究 收藏
基于无日志解析的异常检测算法研究

基于无日志解析的异常检测算法研究

作     者:赵长庆 

作者单位:长沙理工大学 

学位级别:硕士

导师姓名:王进;何施茗;石元泉

授予年度:2022年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 

主      题:日志解析 特征提取 加权特征向量 异常检测 

摘      要:随着信息技术的不断发展,云服务器、电子设备等软硬件产品,对于人们生产生活的重要性逐步加深。系统版本迭代、硬件设备更新,越来越适应于人们的生活和使用习惯,不断提升人们的体验感和幸福感。系统在执行过程中,技术人员会使用系统日志记录运行时的详细信息,这对于分析系统运行状态,快速准确地检测系统异常,保障系统稳定,减少经济损失具有重要意义。然而随着信息时代发展,系统变得越来越复杂多样,系统日志的数量逐渐增加,这给技术人员分析系统异常日志带来了挑战。目前,许多研究人员针对基于系统日志异常检测的研究进行了大量工作,但仍存在许多问题,主要有三个方面:(1)日志类型种类繁多。原始系统日志大多数采用半结构化日志,不同的系统使用的文字、格式并没有统一的规范,这使得研究人员需要针对不同的系统日志,开发出不同的异常检测方式。(2)日志具有不稳定性。由于系统版本更新、日志语句的演变等原因,可能产生新的日志消息类型和格式。如果不及时更新异常检测模型或知识库,会使得新的异常不能被检测出来。同时,在日志收集和日志解析时,由于解析精度不高,生成错误日志模板,也会引入噪声,导致增加日志不稳定性。(3)带有标签的系统日志较少。大多数系统日志没有标签,而基于深度学习的日志异常检测模型需要使用大量的日志标签训练,才能提高日志特征提取的精度和异常检测效果。针对以上主要问题,本文提出基于无日志解析的异常检测方法,主要研究工作体现在以下两个方面:1.由于带标签的系统日志较少,为了降低计算成本并减少日志不稳定性,本文提出了一种基于无日志解析的Word2Vec(Word to Vector)的无监督异常检测方法。该方法只需简单预处理,保留日志详细内容,不需要日志解析步骤,并将原始日志消息的内容作为模型输入以避免解析带来的噪音。本方法使用Word2Vec计算日志词向量,并采用词频-逆文档频率算法计算日志序列特征表示,生成加权日志序列特征向量来应对日志语句的演变。最后,利用计算效率高的无监督聚类方式来识别异常。我们收集了来自Blue Gene/L的数据集,并进行大量实验。仿真实验结果表明,与LogCluster相比,本方法具有更高的检测精度,而且该方法在不同的窗口和特征维度下具有更高的稳定性。2.为了进一步提高异常检测精度,探究日志不稳定性对日志检测的影响,本文提出一种基于无日志解析Transformer的双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)的异常检测方法。该方法利用了 BERT模型进行向量计算,BERT模型可以利用当前词的双向上下文信息,而不是单一的从左到右或从右到左的文本检索,从而使计算出的日志序列特征向量包含上下文信息,更准确地表征原始日志。根据BERT模型生成语义向量的特点,实现下游日志分类任务。该方法不对原始日志进行常规的日志解析操作,将预处理后的日志详细内容作为模型的输入,减少了由于解析错误等原因导致的日志不稳定。该方法与LogBERT和LogAnomaly方法进行对比,实验结果表明该方法具有更高的日志异常检测精度。同时将该方法与解析后的日志进行异常检测实验对比,实验结果表明无日志解析的日志异常检测方法具有较高的检测精度和效果,也验证了该方法在异常检测中的适用性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分