基于深度强化学习的城市道路交通自适应信号控制方法
作者单位:吉林大学
学位级别:硕士
导师姓名:别一鸣
授予年度:2024年
主 题:交通自适应信号控制 交通拥堵 深度强化学习 多智能体强化学习 时空特征提取
摘 要:有效的交通信号控制(traffic signal control,TSC),对于充分发挥道路系统的交通效益、缓解环境污染、助力交通系统的可持续发展具有重要意义。伴随交通出行需求的飞速增长,城市交通运行场景日益复杂,仅依靠传统的交通控制方式已经很难满足实际需求。人工智能技术的迅速发展为精准化、智能化的城市交通控制提供了重要方式。借助于深度学习方法强大的环境感知能力以及强化学习算法实时决策的优势,基于深度强化学习方法(deep reinforcement learning,DRL)的交通信号控制系统不再依赖于启发式的假设和方程,而是通过与交通环境的实时交互,在不断尝试和错误中学习优化最优的信号灯控制策略。因此与传统的交通控制方法相比,基于DRL信号控制方法通常能取得更好的控制效果,DRL信号控制方法逐渐成为TSC的前沿。本文立足城市交通智能化控制的实际需求,基于DRL技术,在城市道路交通信号控制优化方面做了如下工作: 对于单点信号控制,考虑交通流的时序特征挖掘,提出了一种基于长短时记忆与对偶决斗网络的深度强化学习模型。区别于DRL信号控制模型中常见的“整体式Q值网络,该模型在将表征交叉口状态的信息输入拟合网络之前,预先使用长短时记忆网络对状态空间的序列特征进行学习,并利用对偶网络将状态与动作进行一定程度的分离。这样的处理方式使交通状态的值函数计算不再完全依赖于动作价值,提高了模型的灵活性与计算效率。 对于多交叉口的协同控制,考虑城市路网相邻交叉口在几何结构、交通流量、信号周期长度等方面存在较大差异的实际情况,本文建立了一种值分解式的时空图注意多智能体深度强化学习框架。在该框架中,各交叉口由单独的智能体控制,基于时空图注意力网络挖掘路网时空特性,并通过联合动作值函数分解的方式从路网整体角度出发对各交叉口的信号控制策略做出调整,在减少状态-动作空间的同时实现多智能体的合作共赢。此外,利用路网结构参数,本文设计了一种表征交叉口拓扑结构的差异的指标,并以此为基础构建了一种全新的奖励函数,为智能体在异质路网环境下的动作选择提供了一种更准确的衡量方法。 最后以实际交叉口/路网采集获得的数据集为基础,利用模拟仿真软件搭建仿真环境,对所提出的两种信号控制方法的有效性进行了验证分析。结果表明:(1)基于长短时记忆网络的深度强化学习算法能够明显降低独立交叉口的车均排队长度、提高路网的通行效率,但是随着交通需求的逐渐增大,交叉口的信号控制方案的优化空间会逐渐减小。(2)值分解式的时空图注意多智能体深度强化学习模型能够显著降低异质路网环境与均质路网环境下的车均延误、提高路网的通行效率,这种优势在异质环境下更为显著。