基于强化学习的车辆路径规划问题研究
VEHICLE ROUTING PLANNING BASED ON REINFORCEMENT LEARNING作者机构:北京工商大学计算机与信息工程学院北京100048
出 版 物:《计算机应用与软件》 (Computer Applications and Software)
年 卷 期:2021年第38卷第8期
页 面:303-308页
学科分类:08[工学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:北京市科委科技计划项目(Z19110000861907)
主 题:车辆路径规划 强化学习 时间差分法 蒙特卡洛法 启发式算法
摘 要:从机器学习的角度理解,车辆路径规划问题(VRP)可转化为单代理有限状态空间的强化学习问题进行研究。针对小规模VRP问题,提出时间差分模型,使用Sarsa和Q-learning算法进行优化。针对大规模VRP问题,构建环境模型,通过蒙特卡洛法优化代理策略和值函数。在公开数据集上的实验结果表明,强化学习能有效求解小规模VRP问题,并在大规模VRP问题上超过一般的启发式算法。