咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度强化学习算法的未知动态环境无人车路径规划 收藏
基于深度强化学习算法的未知动态环境无人车路径规划

基于深度强化学习算法的未知动态环境无人车路径规划

作     者:童文杰 

作者单位:长安大学 

学位级别:硕士

导师姓名:李博

授予年度:2023年

学科分类:08[工学] 081104[工学-模式识别与智能系统] 080204[工学-车辆工程] 0802[工学-机械工程] 0811[工学-控制科学与工程] 

主      题:深度强化学习 无人车 路径规划 Deep Q Network(DQN) The Robot Operating System(ROS) 

摘      要:目前,无人驾驶技术在物流领域广泛应用。通过车联网、自动导航系统和避障系统,无人车能够替代人工进行物流载人、载物运输,进一步地节约物流运输成本,提高运输效率和物流安全。无人车路径规划通常在环境中利用各种传感器建立高精度地图,在此基础上进行全局规划以及局部规划。在室外环境中障碍物较少,一般的slam建图算法建立的地图容易产生大量偏差导致无法准确定位;在室内环境中,通常存在人、动物等动态障碍物和桌椅等静态障碍物,要求在未知环境下需要无人车能够具有一定的泛化能力,面对未知环境时将感知与决策相结合,快速做出正确的决策。为此,本文提出一种深度强化学习方法用于解决未知动态环境的路径规划问题。首先,分别对深度学习、强化学习和车辆路径规划的研究现状进行分析,在主流深度学习、强化学习和深度强化学习算法的基础上,结合多种深度强化学习算法的优点进行改进,提出APF-D3QNPRE算法。为提升其在环境中的适应能力和泛化能力,使用多种状态作为网络输入,包括视觉状态信息、单线激光雷达信息、自身状态信息,使用卷积神经网络处理深度视觉信息;使用LSTM长短期记忆神经网络处理激光雷达和状态信息,输出为速度传输指令,指导无人车在未知环境中的运动。为保证每个样本能够得到采样机会,并减少在非必要的状态下的训练次数,在经验回放部分提出了基于样本经验奖励值和重采样的经验回放机制,进一步提高了算法的收敛速度。针对算法无法较好适应复杂动态环境的问题,提出基于APF的动作输出机制,将APF的输出作为先验信息,作为网络的另一状态输入。在输出部分,结合改进DQN算法进行最终无人车的动作输出。其次,基于ROS操作系统和gazebo仿真平台,搭建了仿真环境。基于仿真环境,设计相应的奖励函数以及确认算法相关参数具体数值,与主流深度强化学习算法、传统基于地图的路径规划算法进行对比实验。最后,为进一步验证其实际应用效果,搭建实车环境验证无人车的路径规划效果。通过仿真和实车验证,APF-D3QNPRE算法在仿真环境中具有良好的泛化能力,并在收敛速度、损失值、路径规划时间、长度上与其他算法相比具有显著优势;在实车环境中,能够稳定地进行路径规划和避障,为实际的无人车路径规划提供了可靠的实验和应用支撑。本文通过对未知动态环境中的无人车路径规划问题进行研究,使用多种传感器作为状态输入,将改进深度强化学习算法与人工势场法进行结合,保证了无人车在未知环境中的泛化性、避障能力和规划效果,对于无人车在物流配送领域的推广应用具有一定的研究意义和应用价值。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分