基于多粒度级联森林病毒软件检测系统研究与实现
作者单位:中南财经政法大学
学位级别:硕士
导师姓名:刘树栋;肖克江
授予年度:2021年
学科分类:0839[工学-网络空间安全] 08[工学] 0835[工学-软件工程] 081201[工学-计算机系统结构] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:信息安全 机器学习 多粒度级联森林 动态检测 病毒软件
摘 要:互联网技术的飞速发展,人们简单的动动手指就能获得自己想要的资源,但并不是所有的信息技术都能带来便利,也有一些人去散播病毒软件来破坏公共秩序和个人隐私安全以达到自己获利的目的。网络平台的扩大也给病毒软件带来巨大的利益,随着病毒软件数量的激增,网络生活也收到巨大影响,给人民带来的财产损失也与日俱增,病毒软件被作为信息安全领域中重要的防范环节,也受到研究者们的重视。传统的病毒软件检测方法简明、耗时少,仅仅只能检测已经识别到的病毒软件,并且对于病毒软件混淆、加壳、干扰、变形等方式束手无策,因此存在误报率高的问题。为解决传统静态检测方法中所存在的缺点,借用Cuckoo沙箱软件分析应用程序以得到日志文件,通过对日志文件提取病毒软件的动态特征,并且应用了一种集成模型:多粒度级联森林,重点研究了基于多粒度级联森林模型的动态检测技术,并成功将其应用在病毒软件检测系统中,以Windows API函数、线程号、线程调用顺序之间的内在关系作为数据基础,可以更准确得分辨出病毒软件及其类型。本文详细工作如下:1.分析病毒软件在Windows下的行为特征,以Windows API函数为主要对象,结合了API函数、线程号、线程调用顺序数据的内在相关性,构建统计特征及计算特征两类特征,基于总体的调用API频率、线程数量、调用顺序进行构建统计特征,再根据每一类调用API频率、线程数量、调用顺序进行计算特征的构建,将原始数据包含的信息可以充分体现2.详细介绍了多粒度级联森林的基本理论,并对多粒度扫描增强模型表征学习能力进行着重阐述,建立了基于GCForest模型的动态分析方法模型,添加XGBoost分类器,增强模型对少数类的识别能力,从而提高整个模型的准确率。3.在以上研究的基础上,借用Cuckoo沙箱软件,设计实现了病毒软件分类系统,主要有五大功能模块,分别是病毒应用采集处理、病毒软件检测数据管理、病毒应用检测管理、用户管理、查询管理。