基于启发式奖赏塑形方法的智能化攻击路径发现
Intelligent Attack Path Discovery Based on Heuristic Re-ward Shaping Method作者机构:陆军工程大学指挥控制工程学院南京210007
出 版 物:《信息安全学报》 (Journal of Cyber Security)
年 卷 期:2024年第9卷第3期
页 面:44-58页
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:自动化渗透测试 奖赏塑形 分层强化学习 攻击路径发现 DQN算法
摘 要:渗透测试作为一种评估网络系统安全性能的重要手段,是以攻击者的角度模拟真实的网络攻击,找出网络系统中的脆弱点。而自动化渗透测试则是利用各种智能化方法实现渗透测试过程的自动化,从而大幅降低渗透测试的成本。攻击路径发现作为自动化渗透测试中的关键技术,如何快速有效地在网络系统中实现智能化攻击路径发现,一直受到学术界的广泛关注。现有的自动化渗透测试方法主要基于强化学习框架实现智能化攻击路径发现,但还存在奖赏稀疏、学习效率低等问题,导致算法收敛速度慢,攻击路径发现难以满足渗透测试的高时效性需求。为此,提出一种基于势能的启发式奖赏塑形函数的分层强化学习算法(HRL-HRSF),该算法首先利用渗透测试的特性,根据网络攻击的先验知识提出了一种基于深度横向渗透的启发式方法,并利用该启发式方法设计出基于势能的启发式奖赏塑形函数,以此为智能体前期探索提供正向反馈,有效缓解了奖赏稀疏的问题;然后将该塑形函数与分层强化学习算法相结合,不仅能够有效减少环境状态空间与动作空间大小,还能大幅度提高智能体在攻击路径发现过程中的奖赏反馈,加快智能体的学习效率。实验结果表明,HRL-HRSF相较于没有奖赏塑形的分层强化学习算法、DQN及其改进算法更加快速有效,并且随着网络规模和主机漏洞数目的增大,HRL-HRSF均能保持更好地学习效率,拥有良好的鲁棒性和泛化性。