随机需求车辆路径问题的价值逼近在线决策
Value-approximation-based online policy for vehicle routing problem with stochastic demand作者机构:天津大学管理与经济学部天津300072 陕西科技大学机电工程学院陕西西安710021
出 版 物:《控制理论与应用》 (Control Theory & Applications)
年 卷 期:2022年第39卷第2期
页 面:241-254页
核心收录:
学科分类:0402[教育学-心理学(可授教育学、理学学位)] 0303[法学-社会学] 0710[理学-生物学] 0711[理学-系统科学] 08[工学] 081104[工学-模式识别与智能系统] 0811[工学-控制科学与工程] 082302[工学-交通信息工程及控制] 0823[工学-交通运输工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金项目(71802120,71971152) 陕西省创新能力支撑计划(2020KRM024) 陕西省教育厅专项科研计划项目(19JK0125)资助。
主 题:路径问题 随机需求 马尔可夫决策 强化学习 价值逼近算法
摘 要:随着高效实时物流的发展,不确定车辆路径问题面临着兼顾决策精度和实时响应能力的新挑战.本文以应用最为广泛的随机需求车辆路径问题为例,研究提出一种有效的在线决策方法.首先,考虑多车辆同时在线,以总旅行成本最小化为目标,建立马尔科夫决策模型,并引入可信度约束和邻域半径减少策略缩小行动空间,提高求解效率.其次,设计强化学习中的价值逼近算法求解模型,其中,采用基函数估计期望未来成本,并将求解过程分离为离线训练和在线决策两个环节,基函数的权重被离线训练并用于在线决策以减少在线决策时间,同时,在算法中嵌入了邻域半径的动态更新机制.最后,测试多组算例验证了本文方法的有效性.