基于TS-TD3的动态环境端到端无地图导航方法
An End-to-End Mapless Navigation Method Based on TS-TD3 in Dynamic Environment作者机构:东北大学机器人科学与工程学院辽宁沈阳110169
出 版 物:《机器人》 (Robot)
年 卷 期:2023年第45卷第6期
页 面:655-669页
核心收录:
学科分类:080202[工学-机械电子工程] 08[工学] 0804[工学-仪器科学与技术] 0802[工学-机械工程]
主 题:深度强化学习 部分可观测马尔可夫决策过程 确定性策略梯度 动态环境 无地图导航
摘 要:针对基于地图的移动机器人导航框架部署在动态复杂环境时出现的问题,提出一种基于时序-双延迟深度确定性策略梯度(TS-TD3)的无地图导航方法。首先,将动态场景(具有环境部分可观测性)的导航任务定义为部分可观测马尔可夫决策过程(POMDP)。其次,引入经过长短期记忆组件处理的历史信息作为模型的输入,为策略网络的确定性策略梯度引入历史信息基准,以处理隐藏在环境观测集合中的状态信息,将关注导航动作时序关联性的评价标准引入评价网络。再次,通过专家经验网络在训练前期指导策略网络的输出,以规范导航动作。最后,建立演员-评论家框架的深度强化学习(DRL)端到端模型,根据传感器感知结果直接输出控制动作。与主流DRL方法进行对比实验,在仿真实验中,该方法运动轨迹自然、稳定、具有连续性,能处理多动态障碍物交汇情况,整体导航效果表现最优;在真实动态环境的测试中,模型未作调整直接部署在未知环境中,模型的导航效果和泛化性得到验证。