基于多智能体深度强化学习的多船协同避碰策略
Multi-ship collaborative collision avoidance strategy based on multi-agent deep reinforcement learning作者机构:武汉理工大学高性能舰船技术教育部重点实验室湖北武汉430064 武汉理工大学船海与能源动力工程学院湖北武汉430064 武汉理工大学三亚科教创新园海南三亚572019
出 版 物:《计算机集成制造系统》 (Computer Integrated Manufacturing Systems)
年 卷 期:2024年第30卷第6期
页 面:1972-1988页
核心收录:
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
主 题:多智能体深度强化学习 协同避碰 中心化训练去中心化执行 优先经验回放 多智能体Softmax深层双确定性策略梯度
摘 要:为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延迟确定策略梯度(TD3)算法存在的值估计偏差问题,还在模型训练过程中引入熵正则项,以促进探索和控制随机控制策略,采用自适应噪声对不同阶段的任务进行有效探索,进一步提升了算法的学习效果和稳定性。通过实验验证,所提算法在解决多船协同避碰问题上具有较好的决策效果、更快的收敛速度和更稳定的性能。