咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度强化学习的外卖即时配送实时优化 收藏

基于深度强化学习的外卖即时配送实时优化

作     者:陈彦如 刘珂良 冉茂亮 

作者机构:西南交通大学经济管理学院 

出 版 物:《计算机工程》 (Computer Engineering)

年 卷 期:2024年

学科分类:12[管理学] 120203[管理学-旅游管理] 02[经济学] 0202[经济学-应用经济学] 1202[管理学-工商管理] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 020205[经济学-产业经济学] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金资助项目“考虑供需端多为特征的无人机-卡车协同配送优化问题研究”(72371206) 

主  题:外卖配送 实时优化 深度强化学习 马尔科夫决策过程 近似策略优化 注意力机制 

摘      要:为了应对外卖配送任务在用餐高峰期运力紧张、订单延迟送达率高的挑战,提出了一种基于深度强化学习(DRL)的外卖即时配送实时优化策略,以提升外卖平台长期客户服务水平。首先,本文充分考虑外卖配送中备餐时间、取送顺序、时间窗等约束,以最大化期望平均客户服务水平为目标,建立了考虑随机需求的外卖即时配送问题的马尔科夫决策过程(MDP)模型;其次,设计了一种结合近似策略优化(PPO)算法和插入启发式(IH)算法的外卖即时配送优化策略PPO-IH。PPO-IH使用融合注意力机制的策略网络对订单-骑手进行匹配,通过PPO算法对网络进行训练,并使用插入启发式算法更新骑手路径。最后,通过与贪婪策略(Greedy)、最小差值策略,分配启发式以及两种深度强化学习算法的对比实验可知,PPO-IH分别在71.5%、95.5%、87.5%、79.5%与70.0%的数据中表现更优,同时平均客户服务水平更高,平均每单配送时间更短、延迟送达率更低。此外,PPO-IH在不同骑手数、不同订单密度以及不同订单时间窗场景下展示了一定的有效性和泛化性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分