咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >量子启发的深度强化学习算法研究 收藏
量子启发的深度强化学习算法研究

量子启发的深度强化学习算法研究

作     者:魏青 

作者单位:南京大学 

学位级别:硕士

导师姓名:陈春林

授予年度:2021年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 070201[理学-理论物理] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 0702[理学-物理学] 

主      题:深度强化学习 量子强化学习 量子计算 量子启发的经验回放 

摘      要:本文结合现有的深度Q值网络,在量子特性的启发下,深入研究了深度强化学习算法的经验回放机制,提出了量子启发的深度强化学习经验回放机制(Deep Reinforcement Learning with Quantum-inspired Experience Replay,DRLQER)。与传统的深度强化学习经验回放机制不同,本文提出的DRL-QER算法自适应地根据经验的复杂程度以及其已经被回放的次数来从经验池进行经验(也被称为状态转移)的选取,以在探索与开发之间获得平衡。论文具体包括三部分工作,首先给出了状态转移(即经验)的量子化表达方法,量子表达的两个本征态为接受态和拒绝态。而后针对经验的量子化表达设计了酉操作,包括量子准备操作(Preparation operation)与量子折旧操作(Depreciation operation),被施加到经验量子上,以改变其概率幅值。在这一过程中,准备操作反映了经验优先级以及经验量子被选择概率与时间差分误差(TD-errors)的关系,而量子折旧操作是为了保证被选取经验数据分布的多样性。最后基于量子态观测设计了经验采样方法,即对每个经验量子进行观测以得到每个经验坍缩到接受态的概率,按照归一化后的概率对经验进行采样,得到小批量数据并喂入神经网络进行训练。本文在Atari 2600平台上实施了算法性能的实验验证,实验结果证明DRLQER算法在大部分的游戏中有着比目前最新基准算法更好的性能。在扩展实验中,DRL-QER算法与Double网络和Dueling网络进行了结合,实验结果证明,本文提出的DRL-QER算法在其他不同网络结构但基于经验回放的算法上也有着增强效果。为了更进一步地区分准备操作与折旧操作的作用,本文也进行了消融实验,实验结果证明准备操作与折旧操作是不可分割的整体。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分