咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种基于数据不平衡技术的TLS未知应用流量分类方法研究 收藏
一种基于数据不平衡技术的TLS未知应用流量分类方法研究

一种基于数据不平衡技术的TLS未知应用流量分类方法研究

作     者:贺慧杰 

作者单位:北京工业大学 

学位级别:硕士

导师姓名:赖英旭

授予年度:2023年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:数据不平衡 TLS未知应用流量 网络流量分类 随机森林 

摘      要:网络流量分类作为网络管理和网络安全的基础,对于网络运营而言有着举足轻重的作用,因此网络流量分类在网络环境中各领域的研究已成为重点。随着研究的深入,对于含有未知应用流量(应用类别不包含在训练集中的流量)的网络流量分类研究已经成为新的潮流,尤其是TLS未知应用流量。针对含有TLS未知应用流量的网络流量分类方法不同于传统的网络流量分类方法。具体而言,网络流量分类方法在对TLS未知应用流量进行分类时,不仅需要提高TLS已知应用流量(应用类别包含在训练集中的流量)的分类准确率,还需要有效处理TLS未知应用流量。然而,传统的网络流量分类方法不仅难以实现对TLS加密流量进行高准确分类,而且无法对TLS未知应用流量进行有效处理。因此,鉴于传统的网络流量分类方法存在的问题和TLS未知应用流量分类面对的挑战,本文的主要研究内容如下:(1)TLS加密流量的特征提取与表示本文以TLS加密流量为研究对象。首先,以整条流的层面为出发点,从报文长度角度和报文字节角度提取能高度区分不同应用的高质量特征;然后,将这些特征按数据报文到达的顺序排列形成报文长度序列和报文字节序列,用这两个序列共同表示一条TLS加密流。这种特征提取与表示方法不仅可以更准确地描述加密流,而且在后续的数据使用方面也更加灵活。(2)已知应用流和未知应用流的精准分离本文利用数据不平衡技术对已知应用流和未知应用流分离模块进行设计。首先,该模块构建多个不平衡数据集,并利用这些数据集训练多个能压缩一类已知应用流输入空间范围的单类别分类器;然后,将所有单类别分类器进行聚合达到压缩所有已知应用流输入空间范围并为未知应用流预留出输入空间的目的,从而实现已知应用流和未知应用流的精准分离,为未知应用流的有效处理奠定基础。(3)TLS加密流的准确分类本文利用随机森林算法的输入包容性,结合多角度拼接数据训练并生成一个高准确分类TLS加密流的精细化分类模型。首先,本文将报文长度序列和报文字节序列进行拼接融合,形成对TLS加密流描述更加准确的多角度拼接序列;然后,采用基于集成学习的随机森林算法训练并生成针对TLS加密流的精细化分类模型,确保对TLS加密流分类的准确性和可靠性。最后,为了证明本文提出方法的有效性,本文在涵盖25种应用程序的真实TLS数据集的基础上,设计了三组不同未知应用占比(20%、40%和60%)的场景,并根据本文所提方法在各场景的综合表现去评估该方法的优越性和可靠性。实验结果表明,本文所提方法的-Score值达到94%-96%,比现有最先进的方法平均高出5个百分点。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分