基于深度强化学习的无人自主小车自适应行车策略研究
作者单位:西安理工大学
学位级别:硕士
导师姓名:庞辉
授予年度:2024年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0838[工学-公安技术] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:无人自主小车 自适应轨迹跟踪控制 深度确定性策略梯度 车道保持及避障控制
摘 要:随着智能交通系统的发展,无人自主小车(Unmanned Autonomous Car,UAC)在复杂的交通环境中实现高效、安全的自适应行车已成为关键研究方向,其中UAC的决策控制策略研究是无人驾驶技术实现突破的关键之—。为此,本文基于深度强化学习技术,研究并设计了两种自适应行车控制器,探索了视觉信息和控制策略之间的集成方法,旨在提高UAC自适应行车决策的精确性和控制的稳定性。主要工作如下: (1)为了实现UAC的横向轨迹跟踪控制的精确性和有效性,本文基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法框架,设计了一种多数据融合自适应轨迹跟踪的UAC控制方案。首先,建立了UAC单轨运动学模型,为UAC自适应轨迹跟踪控制提供了运动基础。其次,通过对UAC控制框架的网络结构进行合理设计,搭建了基于DDPG的横向轨迹跟踪控制器。同时,通过添加自衰减的奥恩斯坦-乌伦贝克(Ornstein-Uhlenbeck,OU)噪声来增加UAC前期动作的探索性和后期动作的稳定性。 (2)为了验证所搭建的DDPG横向轨迹跟踪控制器的精确性和鲁棒性,基于Python语言的Gym库和Pytorch库搭建三种不同复杂程度的仿真工况,并根据不同工况对奖励函数、状态空间和动作空间进行了详细分析,继而设计合理的奖励函数。然后,通过分析对比不同折扣率对于平衡即时和长期回报的重要性,确定了最优折扣率。接着,利用三种不同工况来验证DDPG控制器应用于UAC的横向轨迹跟踪性能。最后,搭建基于机器人操作系统(Robot Operating System,ROS)的UAC实验平台,以验证所设计的DDPG横向轨迹跟踪控制器在实际环境中轨迹跟踪控制的精确性和鲁棒性。 (3)为了实现UAC的车道保持及避障控制研究,基于DDPG算法设计了一种具有动态信息拼接系统的Actor-Critic网络架构。在UAC系统动力学模型基础上,搭建了一个集成车道保持与自主避障功能的DDPG控制器,利用卷积神经网络(Convolutional Neural Network,CNN)端到端学习的能力从实时捕获的图像中提取特征,并通过黑帧剪切和随机OU噪声增加模型训练过程的探索性。然后,依靠Gym库搭建Racetrack-env仿真环境,通过在三种具有静态障碍物和动态障碍物的复杂路况下,验证所提出的控制器在实现车道保持和自主避障上的鲁棒性和稳定性。最后,通过搭建ROS无人车实验平台以验证所构建的DDPG控制器在实际环境中完成车道保持及避障任务的表现性能。