基于强化学习的城市道路交叉口信号控制方法研究
作者单位:兰州理工大学
学位级别:硕士
导师姓名:刘宗礼
授予年度:2022年
主 题:交叉口信号控制 强化学习 等待时间 停车次数 分类经验回放
摘 要:道路交叉口是城市交通路网中的关键节点,车辆在交叉口区域频繁的启停以及加减速使得交叉口车辆通行效率降低,并导致该区域的尾气浓度明显高于其他区域。交通信号控制作为一种有效的车流管理手段,其在现代交通管理中扮演着不可替代的角色,科学合理的交通信号控制方法不仅能够提高道路的利用率,同时也可以间接地降低尾气排放。本文以城市道路交叉口为研究对象,以车辆在交叉口区域的等待时间、停车次数以及主要污染物排放量作为评价指标,充分借助强化学习在最优控制领域中的应用优势,提出了一种综合考虑道路通行效率和车辆尾气排放的智能信号控制方法,本文主要完成了以下工作:(1)针对传统DQN算法的经验回放机制采用随机抽样方式忽略了不同样本对模型训练贡献度的问题,对DQN算法的经验回放机制进行改进,以样本的重要程度为依据,提出了采用分类经验回放机制的CER-DQN(Classifled Experience Replay-DQN)算法,实验结果表明:与传统的DQN算法相比,改进的算法可有效加快模型训练的收敛速度、提高模型的鲁棒性。(2)针对孤立的单交叉口场景,建立了基于强化学习的信号控制模型。首先,通过将交叉口进口车道分割成连续的等距网格构建模型所需的状态空间;同时,根据交叉口的几何特征和相位设计定义动作空间,并结合等待时间和停车次数构造综合奖励函数;最后,分别采用定时控制、DQN算法和CER-DQN算法在不同的交通流场景和奖励函数下进行实验。结果显示:从模型性能角度分析,不论是在中度交通流场景还是重度交通流场景下,CER-DQN算法相比DQN算法具有更快的收敛速度;从控制效果角度分析,两种交通流场景下,改进后的算法各个指标均呈现出更好的表现;此外,在奖励函数中引入停车次数对于降低车辆的CO和NOx排放具有显著的效果。(3)针对相邻的多交叉口场景,在单交叉口模型的基础上建立信号控制模型。考虑到各交叉口之间处于相互竞争的状态,若对多个交叉口单独控制可能会导致整个路网的交通流分布不均甚至出现局部拥堵的现象。因此,在定义各交叉口控制模型时引入了相邻交叉口的排队和信号相位信息,从而实现各时空关联的交叉口之间的协作,仿真实验表明:相对独立控制,采用协作策略的多交叉口信号控制方式各交叉口之间的评价指标数值更加均衡,在一定程度上能够提升路网全局的通行效率。