基于分布式计算的网络流量异常检测系统
作者单位:北京邮电大学
学位级别:硕士
导师姓名:徐惠民
授予年度:2010年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:流量异常检测 Hadoop 网络信息熵 主成分分析 子空间法
摘 要:随着网络的开放性、共享性及互联程度的扩大,网络的重要性以及对社会的影响也越来越大。Internet的迅速发展给人们带来巨大方便的同时,也使我们面临着各种安全事件的威胁。据统计,近年来针对网络资源的各种攻击带来了巨大的经济损失。异常检测作为网络的安全防护体系逐渐成为网络安全领域的研究重点。 互联网时代的数据是庞大的,尤其是大规模网络的数据流量,能够快速而精确地从海量日志数据源中检测出异常的系统具有很好的市场前景。本文针对大量数据,提出了结合分布式计算思想进行并行处理的方法,介绍了开源软件平台Hadoop在分布式并行计算方面的优点,实现了数据预处理的具体应用并进行了相关实验。接着从对流量异常分类的研究入手,通过对目前主要的流量攻击的攻击特征的分析,根据信息熵的定义,得出网络信息熵能应用于网络流量异常检测。系统设计了基于网络信息熵的算法,结合统计学中的主成分分析法和子空间方法,共同实现了对网络流量异常的检测。 本文所实现的实际系统包括数据预处理模块,熵值计算模块,主成分分析模块和子空间异常检测模块。系统结合实际应用,得到了较好的检测效果。论文最后还对研究中存在的问题及有待于进一步研究的课题进行了探讨。论文为异常检测系统设计提供了有价值的参考,具有一定的理论意义及实际应用价值。