基于深度强化学习的流量优化控制方法研究
作者单位:北京邮电大学
学位级别:硕士
导师姓名:王颖
授予年度:2021年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 081201[工学-计算机系统结构] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:深度强化学习 流量优化控制 软件定义网络 码率自适应控制
摘 要:随着计算机网络的快速发展,网络业务日益多样化,网络中的流量呈现出快速增长的趋势,其中视频流量占据了很大一部分。传统的静态网络流量控制方案,如最短路径传输等,往往不能很好地考虑网络的状态,同时也无法满足特定的业务目标。为此,通常需要将业务目标进行形式化描述后提出启发式的算法来近似地求解。然而,这种流量控制方式往往对应于特定的流量模式,当网络流量的特征变化时,应用的性能可能会有所下降。除此之外,设计启发式算法的周期通常需要数周,因为该过程需要网络管理员的参与、收集与应用相关的信息和在一段较长的时间内的流量统计信息等。因此,设计一个能够自动化上述过程的流量优化智能体,并且能在自动适应网络状态变化的同时满足设定的目标是非常有价值的。近年来,人工智能技术在一些领域中取得了令人满意的效果。受此启发,研究人员开始将人工智能技术,特别是深度强化学习(Deep Reinforcement Learning,DRL)算法,用于网络流量控制中。然而现阶段的DRL算法存在数据利用率较低的特点,这成为了应用DRL算法进行流量控制的主要障碍之一,为此本文在应用DRL算法进行流量控制时,还关注如何提高算法的数据利用率,以加快算法的学习过程。本文根据流量控制策略设置位置的不同,进行了如下两个方面的研究:(1)基于DRL的软件定义网络中流量动态分流方法。这种类型的流量控制方式需要将策略设置到相应的转发设备中,属于In-Network 的控制方式。软件定义网络(Software-defined network,SDN)是一种新型的网络架构,它将网络的控制功能从转发设备中分离了出来,从而可以集中地对网络设备进行管理,因而可以加快算法策略的设置过程。为了加快算法的训练过程,本文提出算法SDNRLTE,它采用了三种技术对原DRL算法进行了改进,分别为:TE感知探索,基于优先级的经验池和多步收益。实验结果显示,SDNRLTE优于传统静态的流量控制方法,并且能够适应网络流量的动态变化,并且比未改进前的DRL算法收敛更快。(2)面向业务的视频流码率自适应调整方法。这种类型的流量控制方式需要将策略设置到流量发送或接收端中,属于Out-Network的控制方式。为了加快算法的训练过程,本文提出算法MTABR,该算法首先使用元学习方法MAML对多业务目标进行学习,当有新的业务目标出现时,算法能够利用先前的经验进行快速的学习。之后,本文对算法的流程进行了分析,发现多个业务目标可以并行运行,由此,提出了并行的多目标学习算法流程。实验结果显示,当有新的业务目标出现时,MTABR能够加快算法的训练过程。同时,MTABR能在可接受的时间内输出较好的动作策略,并且能够适应网络状态的变化。