咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度强化学习的端到端自动驾驶技术研究 收藏
基于深度强化学习的端到端自动驾驶技术研究

基于深度强化学习的端到端自动驾驶技术研究

作     者:周昕阳 

作者单位:南京理工大学 

学位级别:硕士

导师姓名:陆建峰

授予年度:2023年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 082304[工学-载运工具运用工程] 081104[工学-模式识别与智能系统] 080203[工学-机械设计及理论] 080204[工学-车辆工程] 0802[工学-机械工程] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0823[工学-交通运输工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:端到端自动驾驶 深度强化学习 LSTM PPO MAML 概率图模型 奖励函数 

摘      要:随着人工智能的快速发展,自动驾驶技术成为了研究热点,具有极为重要的现实意义。基于模仿学习的端到端自动驾驶方法,使用神经网络来学习人类的驾驶行为,该方法需要采集大规模的驾驶数据集以及大量的人工标注,因此成本较高。深度强化学习方法通过智能体与环境的交互不断进行学习,且兼具了深度学习对高维信息的抽象能力与强化学习的决策能力,非常适合实现端到端的自动驾驶模型。因此本文采用深度强化学习,对端到端的自动驾驶技术展开了研究。 现有基于强化学习的自动驾驶方法往往仅依赖单帧图像输入与车辆状态信息,没有利用图像序列信息,驾驶状态的连续性无法得到保证。且端到端自动驾驶方法通常把环境理解与规划决策放在一起训练,学习效率较低。针对以上问题,我们首先利用环境中的图像分割结果,预训练一个变分自动编码器来对图像特征进行降维,接着使用结合LSTM的PPO算法作为自动驾驶决策模型,在训练过程中获取上下文的时序特征。经过实验验证,我们提出的方法可以遵循预定路线,完成了道路跟踪任务,并且减少了车辆行驶轨迹的抖动。 针对强化学习算法容易对环境过拟合、泛化性差的问题,我们将元学习中的MAML算法与深度强化学习算法相结合,使自动驾驶模型在面对新的环境时,可以利用以往历史经验,快速适应新任务。然而经过MAML训练得到的初始强化学习模型往往会偏向某一类任务,得到的仍然是一个有偏的初始化网络,为了解决这一问题,我们使用加权梯度更新的方式来最小化网络模型对特定任务的偏差,提升MAML算法的泛化能力,并且在Gym平台下设计了仿真实验,证明了加权梯度更新方式的有效性。最后将所提出的算法应用到自动驾驶的仿真实验中,在CARLA平台任意设置起点进行训练,并将训练模型应用到其他地图场景进行验证。 为了进一步优化自动驾驶算法,我们将模型应用到具有动态障碍物的导航任务中,采用概率图模型对环境进行建模,并使用软式演员-评论家(SAC)算法进行求解。我们在开源的CARLA-Gym环境下进行实验,利用RGB相机和激光雷达生成语义鸟瞰图,除此之外,我们利用航路点坐标与当前姿态信息生成出导航特征,连同语义鸟瞰图一起作为状态输入。实验结果表明,该方法可以在有动态障碍的复杂环境中完成导航任务,性能指标优秀,且通过潜状态特征可以直接生成语义鸟瞰图,增加了模型的可解释性。 本文从强化学习模型框架,状态输入特征和奖励函数设计等多方面研究了基于深度强化学习的端到端自动驾驶技术。针对不同驾驶任务设计了多种自动驾驶方案,经过在CARLA平台下的仿真实验,本文提出的方法可以有效地完成自动驾驶任务,并在驾驶状态连续性、模型泛化性等多个方面提升了强化学习模型在自动驾驶任务上的表现。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分