检索结果-南通市图书馆

系统仿真学报 2024年第9期36卷 2208-2218页

作者：钱殿伟齐红敏刘振周志明易建强华北电力大学控制与计算机工程学院北京102206 中国科学院自动化研究所北京100190

针对传统强化学习在空战自主决策应用中信息冗余度高、收敛速度慢等问题,提出一种基于双重观测与复合奖励的近端策略优化空战自主决策算法。设计了以交互信息为主、个体特征信息为辅的双重观测信息,降低战场信息高度冗余对训练效率的影... 详细信息

针对传统强化学习在空战自主决策应用中信息冗余度高、收敛速度慢等问题,提出一种基于双重观测与复合奖励的近端策略优化空战自主决策算法。设计了以交互信息为主、个体特征信息为辅的双重观测信息,降低战场信息高度冗余对训练效率的影响;设计了结果奖励和过程奖励相结合的复合奖励函数,提高了训练过程收敛速度;采用广义优势函数估计,改进了近端策略优化算法,提高优势函数估计的准确性。仿真结果表明:在对战固定程控对手和矩阵博弈对手实验场景中,该算法决策模型均可根据战场态势准确进行自主决策,完成空战任务。

关键词：强化学习空战自主决策双重观测复合奖励广义优势函数估计

来源：

维普期刊数据库

同方期刊数据库博看期刊

同方期刊数据库评论

在线全文

学校读者我要写书评

暂无评论

基于变分推理的策略梯度算法研究

基于变分推理的策略梯度算法研究

引用

作者：张棋吉林大学

学位级别：硕士

在如今的大数据时代,机器学习在人工智能各个领域得到了广泛应用,尤其是深度神经网络的日渐成熟。虽然机器学习以及深度学习直观易懂,但是需要大量的有精确标注的数据标签。这种数据标签囊括了精准概括的信息,甚至是有价值的专家知识,... 详细信息

在如今的大数据时代,机器学习在人工智能各个领域得到了广泛应用,尤其是深度神经网络的日渐成熟。虽然机器学习以及深度学习直观易懂,但是需要大量的有精确标注的数据标签。这种数据标签囊括了精准概括的信息,甚至是有价值的专家知识,标签的获取往往需要大量人工标注甚至难以获得。强化学习就是用来解决这些难以获得标签数据的问题,其中值得关注的是经典的控制问题,尤其是持续的控制问题。因为强化学习需要智能体频繁和所处环境交互获得正负值奖励从而获得更好决策经验,这种特性让很多问题有了可以尝试的解决办法,并且经过大量实验研究也证明了是优秀的解决办法。在此背景下,本文关注持续控制的问题,并对近年来解决持续控制问题的策略梯度算法进行深入研究。然而这类算法仍然存在采样效率低和评估网络不稳定的问题,于是提出了利用变分推理的方法进行结构化探索的方法来提高采样效率;并设计特殊网络结构稳定评估网络的方法。本文的主要工作如下:1.针对基于表演家-评判家架构(Actor-Critic,AC)算法中Critic网络不稳定的问题,本文提出了利用延迟更新的思想让Actor和Critic网络异步更新。其中让V值函数先更新,再将稳定的Critic网络用来评价Actor网络的决策表现。该方法从数学的角度上,解释了神经网络对无标签数据的学习存在偏差,利用了一个工程的技巧,成功地解决了神经网络的训练问题。2.针对用优势函数来评估AC架构算法可能存在过大偏差的问题,本文使用了广义优势函数估计的办法。这里将这个过程封装成一个独立的子过程,加入到深度强化学习的训练中。利用一个离轨策略的方法,对优势函数做lambda调节,将这个过程设为单独的蒙特卡洛过程不影响整个模型的学习。3.针对强化学习算法对经验利用的不充分的问题,提出了利用变分推理的办法对经验做结构化探索。改算法架构,可以充分地发挥延迟更新的作用,使算法有时间稳定Critic网络的同时,来对以往经验进行分析,从中提取结构化的策略,作为策略网络学习的依据,最终达到充分学习经验池中的有效经验。

关键词：强化学习近端策略梯度优化算法变分推理广义优势函数估计

来源：

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

在线全文

在线全文

请选择保存的检索档案：

请选择收藏分类：

通借通还

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

在线全文

在线全文

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：