咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >随机需求车辆路径问题的价值逼近在线决策 收藏

随机需求车辆路径问题的价值逼近在线决策

Value-approximation-based online policy for vehicle routing problem with stochastic demand

作     者:张晓楠 张建雄 ZHANG Xiao-nan;ZHANG Jian-xiong

作者机构:天津大学管理与经济学部天津300072 陕西科技大学机电工程学院陕西西安710021 

出 版 物:《控制理论与应用》 (Control Theory & Applications)

年 卷 期:2022年第39卷第2期

页      面:241-254页

核心收录:

学科分类:0402[教育学-心理学(可授教育学、理学学位)] 0303[法学-社会学] 0710[理学-生物学] 0711[理学-系统科学] 08[工学] 081104[工学-模式识别与智能系统] 0811[工学-控制科学与工程] 082302[工学-交通信息工程及控制] 0823[工学-交通运输工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金项目(71802120,71971152) 陕西省创新能力支撑计划(2020KRM024) 陕西省教育厅专项科研计划项目(19JK0125)资助。 

主  题:路径问题 随机需求 马尔可夫决策 强化学习 价值逼近算法 

摘      要:随着高效实时物流的发展,不确定车辆路径问题面临着兼顾决策精度和实时响应能力的新挑战.本文以应用最为广泛的随机需求车辆路径问题为例,研究提出一种有效的在线决策方法.首先,考虑多车辆同时在线,以总旅行成本最小化为目标,建立马尔科夫决策模型,并引入可信度约束和邻域半径减少策略缩小行动空间,提高求解效率.其次,设计强化学习中的价值逼近算法求解模型,其中,采用基函数估计期望未来成本,并将求解过程分离为离线训练和在线决策两个环节,基函数的权重被离线训练并用于在线决策以减少在线决策时间,同时,在算法中嵌入了邻域半径的动态更新机制.最后,测试多组算例验证了本文方法的有效性.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分