临时限速下基于强化学习的高速列车速度曲线优化
Reinforcement Learning-based Optimization of Speed Profile for High-speed Train with Temporary Speed Restriction作者机构:北京交通大学轨道交通控制与安全国家重点实验室北京100044 澳门科技大学系统工程研究所中国澳门999078 中国铁道科学研究院集团有限公司通信信号研究所北京100044
出 版 物:《铁道学报》 (Journal of the China Railway Society)
年 卷 期:2023年第45卷第2期
页 面:84-92页
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(61925302,U1934220,62103033) 北京交通大学基本科研业务费(2021RC269)
主 题:高速列车 目标速度曲线 临时限速 深度强化学习 双深度Q网络
摘 要:高速列车运行过程中受到恶劣天气、前方列车等的影响,导致线路增设临时限速,需要实时生成优化的目标速度曲线,以保障运行效率。为此,提出考虑限速信息的列车目标速度曲线优化方法。根据列车运行阶段的不同设置工况调整策略,并提出用于优化列车车载控制器的动作选择策略的最短剩余运行时间计算方法。在高速列车运行强化学习环境的状态空间中增加限速信息变量,重构了强化学习环境。基于优先回放机制改进了双深度Q网络算法,以提高算法学习效率和模型收敛速度。不同临时限速场景下的仿真算例表明双深度Q网络算法可以充分利用计划运行时间曲线与最短运行时间曲线之间的冗余,保证列车准时性的前提下实现列车节能舒适运行,与遗传算法相比,有效减少工况切换次数,同时降低列车运行能耗3%以上。