检索结果-南通市图书馆

河北工业大学学报 2024年第4期53卷 21-30页

作者：赵天亮张小俊张明路陈建文河北工业大学机械工程学院天津300401

针对深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法在训练神经网络时出现收敛不稳定、学习效率低等问题,提出了一种基于奖励指导的深度确定性策略梯度(Reward Guidance DDPG,RG_DDPG)算法。该算法在回合内创建优秀... 详细信息

针对深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法在训练神经网络时出现收敛不稳定、学习效率低等问题,提出了一种基于奖励指导的深度确定性策略梯度(Reward Guidance DDPG,RG_DDPG)算法。该算法在回合内创建优秀经验集合,便于指导智能汽车充分利用过往有效信息,得到稳定的控制策略;采用基于奖励的优先经验回放机制,打破数据之间的关联性,提高数据的利用率,减少搜索过程的盲目性,提高算法的收敛稳定性。基于ROS(Robot Operating System)操作系统对算法进行了验证。在Gazebo建模软件中,设计了智能汽车模型以及障碍物环境,利用决策算法规划智能汽车的安全行驶路径。数据结果验证了RG_DDPG算法在处理路径规划任务的有效性,相比于DDPG算法,改进后智能汽车的车速能够提升60.5%,获取奖励提升一倍多,算法的收敛稳定性更好。最后通过实车实验验证了该算法的实用性。

关键词：智能汽车无人驾驶路径规划深度确定性策略梯度奖励指导

来源：

维普期刊数据库

同方期刊数据库评论

在线全文

学校读者我要写书评

暂无评论

基于深度强化学习的无人驾驶路径规划算法研究

基于深度强化学习的无人驾驶路径规划算法研究

引用

作者：陈建文河北工业大学

学位级别：硕士

无人驾驶是当今人工智能技术热门应用场景之一,也是众多学者的研究热点。路径规划作为无人驾驶的关键技术之一,对推动智能汽车的快速发展起着重要作用。以往传统的控制决策算法大都是基于规则的,这种依靠人工经验构建的模型很难应对复... 详细信息

无人驾驶是当今人工智能技术热门应用场景之一,也是众多学者的研究热点。路径规划作为无人驾驶的关键技术之一,对推动智能汽车的快速发展起着重要作用。以往传统的控制决策算法大都是基于规则的,这种依靠人工经验构建的模型很难应对复杂环境中出现的突发情况,因此有必要通过具有自适应能力的驾驶决策算法来解决该类问题。本文将深度强化学习技术应用于智能汽车的路径规划,对具有自适应能力的无人驾驶决策算法进行深入研究,主要研究内容及取得成果包括以下几个方面:(1)针对深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法在训练神经网络时会出现收敛不稳定、学习效率低等问题。本文提出了一种基于奖励指导的深度确定性策略梯度(Reward Guidance DDPG,RG＿DDPG)算法。该算法首先在回合内创建优秀经验集合,便于指导智能汽车对过往有效信息进行充分利用,得到稳定的控制策略;然后采用基于奖励的优先经验回放机制,打破数据之间的关联性,提高了数据的利用率,减少智能汽车探索的盲目性,提高算法的收敛稳定性。(2)为了进一步提升智能汽车训练性能,构建路径规划训练系统,其中深度强化学习的超参数对训练模型的性能至关重要,所以对深度神经网络中的超参数进行预训练,提高模型训练效率。通过建立栅格地图环境来验证深度强化学习决策算法的可行性,同时在训练环境中设置了动态障碍物,进一步验证决策算法在复杂环境中的鲁棒性。(3)基于Ubuntu 18.04系统以及ROS(Robot Operating System)机器人操作系统对算法进行了验证。在Gazebo建模软件中,设计了智能汽车URDF模型以及障碍物环境,然后采用gmapping功能包实现智能汽车的建图与定位,接着利用决策算法规划智能汽车的安全行驶路径,并在Rviz中实现智能汽车模型的可视化。数据结果验证了RG＿DDPG算法在处理路径规划任务的有效性,相比于DDPG算法,改进后智能汽车的车速能够提升60.5%,获取奖励提升一倍多,算法收敛稳定性能更好。最后通过实车实验来验证决策算法路径规划的实用性。

关键词：智能汽车路径规划深度确定性策略梯度奖励指导优先经验回放

来源：

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

改进深度确定性策略梯度的决策算法研究

引用

汽车实用技术 2022年第1期47卷 28-31页

作者：陈建文张小俊张明路河北工业大学机械工程学院天津300400

为解决无人驾驶路径规划过程中的决策控制问题,文章针对深度确定性策略梯度算法在未知环境中随着搜索空间的增大,出现训练效率低、收敛不稳定等缺点,提出了基于奖励指导的改进算法。首先在每回合内采用基于奖励的优先级经验回放,减少深... 详细信息

为解决无人驾驶路径规划过程中的决策控制问题,文章针对深度确定性策略梯度算法在未知环境中随着搜索空间的增大,出现训练效率低、收敛不稳定等缺点,提出了基于奖励指导的改进算法。首先在每回合内采用基于奖励的优先级经验回放,减少深度确定性策略梯度算法随机探索的盲目性,提高智能车学习效率。然后在回合间基于奖励筛选优秀轨迹,便于指导智能车对复杂空间的探索,得到稳定的控制策略。最后,在开源智能驾驶仿真环境进行仿真。实验结果表明改进后的深度确定性策略梯度算法性能优于原来的算法,训练效率和收敛稳定性均得到有效提升。

关键词：路径规划决策控制深度确定性策略梯度奖励指导优先经验回放

来源：

维普期刊数据库

同方期刊数据库博看期刊评论

在线全文

学校读者我要写书评

暂无评论

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

在线全文

在线全文

在线全文

请选择保存的检索档案：

请选择收藏分类：

通借通还

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

在线全文

在线全文

在线全文

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：