检索结果-南通市图书馆

基于多代理double dqn算法模拟发电侧竞价行为

维普期刊数据库

同方期刊数据库评论

在线全文

学校读者我要写书评

暂无评论

电网技术 2020年第11期44卷 4175-4182页

作者：高宇李昀曹蓉蓉李宁峰高铭泽国电南瑞科技股份有限公司江苏省南京市211106 南瑞集团有限公司(国网电力科学研究院有限公司) 江苏省南京市211106

强化学习已经成为研究发电侧竞价策略的重要方法,而Q-Learning算法的Q-table维度问题是限制其应用在发电侧竞价策略的主要原因,为此文章采用智能多代理double dqn(doubledeepq-learningnetwork,Ddqn)算法进行研究。Ddqn算法采用神经网... 详细信息

强化学习已经成为研究发电侧竞价策略的重要方法,而Q-Learning算法的Q-table维度问题是限制其应用在发电侧竞价策略的主要原因,为此文章采用智能多代理double dqn(doubledeepq-learningnetwork,Ddqn)算法进行研究。Ddqn算法采用神经网络估计值函数与选择动作策略,解决了Q-Learning会因为状态序列的增加导致计算量庞大甚至无法求解的问题。此外,文章根据日前市场发电商报价方式设计了报价策略并作为Ddqn的动作空间,将发电商中标电量与负荷需求作为Ddqn的状态序列,在tensorflow环境中模拟竞价过程。实验结果表明,使用Ddqn算法模拟发电商竞价行为是可行的,并且参与竞价的发电商都达到了纳什均衡点。

关键词：多代理 double dqn 神经网络竞价行为纳什均衡

维普期刊数据库

同方期刊数据库评论

在线全文

学校读者我要写书评

暂无评论

基于深度强化学习的交通配时优化技术研究

基于深度强化学习的交通配时优化技术研究

作者：张可新沈阳理工大学

学位级别：硕士

因为我国经济的高速发展、人民收入水平随之的不断提高、全球城市化进程的不断加速,导致城市路网中车辆数量在一个较大的基数上持续增加。除此之外,在高品质生活下的日常活动中,很多方面也增加了城市路网中的车辆数量。城市路网中车辆... 详细信息

因为我国经济的高速发展、人民收入水平随之的不断提高、全球城市化进程的不断加速,导致城市路网中车辆数量在一个较大的基数上持续增加。除此之外,在高品质生活下的日常活动中,很多方面也增加了城市路网中的车辆数量。城市路网中车辆数量的增加导致交通拥堵、交通疏通不及时、路口交通事故等现象逐渐严重化和普遍化,这些现象已经开始由大中型城市向中小型城市蔓延,同时也成为困扰世界各城市的主要社会问题,制约着经济和社会的发展,日益引起各国政府的高度重视。解决城市交通问题,首先解决交通拥堵问题,而交通信号配时是解决交通拥堵问题的重要手段。鉴于交通信号配时在城市交通系统中的关键作用,发展更加有效的城市交通信号配时策略才是解决城市交通拥堵问题的根本出路。在交通配时技术上,基于传统Q-Learning的交通信号配时策略是解决交通配时问题的重要手段,但它存在繁琐的Q值表建立和搜索、目标Q值容易被高估、无法长期记忆经验等问题,导致疏通环境交通拥堵的效果有限。然而,深度强化学习本身具有的深度网络以及引入的经验池、贪婪策略、double dqn等方法技术,可以很好的解决传统Q-Learning在交通信号配时上存在的上诉问题。为此,我们在基于传统Q-Learning的交通信号配时策略上,提出采用深度强化学习(dqn)策略来优化交叉口信号配时技术。以减少交通系统中滞留于路网中的车辆数量和所有通过交叉口的车辆的所用的平均行驶时间。实验结果表明,基于深度强化学习(dqn)的交通信号配时策略对于疏通交叉路口车辆方面优于传统Q-Learning策略,可以更好的疏通环境交通拥堵,提高交通系统的通行效率。

关键词：交通信号配时深度强化学习 double dqn 经验池技术贪婪策略

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

面向分散计算的任务调度技术研究

面向分散计算的任务调度技术研究

作者：袁森国防科技大学

学位级别：硕士

在过去一段时间里,云计算作为主要的计算范式在提供按需配置的、位置无关的以及延迟容忍的服务方面占据了主导地位。随着边缘计算和雾计算的兴起,一部分计算也开始卸载到网络边缘执行。但随着5G以及物联网的进一步推进,海量的数据在网... 详细信息

在过去一段时间里,云计算作为主要的计算范式在提供按需配置的、位置无关的以及延迟容忍的服务方面占据了主导地位。随着边缘计算和雾计算的兴起,一部分计算也开始卸载到网络边缘执行。但随着5G以及物联网的进一步推进,海量的数据在网络边缘或网络中产生,以及越来越多的应用(如虚拟现实、自动驾驶等)开始寻求低时延或实时的计算响应,要求基于位置感知的计算服务。而云计算、雾/边缘计算缺乏对网络内的溢出的算力资源的有效感知和利用,无法满足相应的需求。于是作为补充范式的分散计算被提了出来,分散计算进一步扩大了对网络计算资源和通信资源的利用范围,可以提供更低的时延保证和更高的计算扩展性。任务调度是分散计算的关键技术之一,然而传统的启发式任务调度算法在面对分散计算环境的高动态、高异构和分散性问题时,不能很好地适应计算环境,同时缺乏学习能力,不能有效感知分散计算资源。本文重点研究了分散计算任务调度面临的计算环境动态性、异构性和分散性问题,旨在通过具有学习能力的分散计算任务调度实现自适应分散计算环境,感知分散计算资源,进而发挥分散计算的“本地”算力优势。本文提出了一个可扩展的分散计算任务调度模型,将分散计算任务调度决策过程建模为马尔可夫决策过程,并结合强化学习技术分别提出了基于Q-Learning的域内分散计算任务调度算法和基于double dqn的跨域分散计算任务调度算法。模拟实验结果表明了所提出算法的可行性和有效性。本文的主要贡献如下:1)本文将分散计算调度决策过程建模为马尔可夫决策过程,建立了一个新的可扩展的分散计算任务调度模型。基于对分散计算域的划分,将分散计算任务调度问题解构为域内任务调度和跨域任务调度,减少了分散计算任务调度的问题规模;2)针对域内分散计算任务调度面临的资源动态性和异构性问题,提出了基于Q-Learning的域内分散计算任务调度算法,实现了低时延的、自适应的域内分散计算任务调度。在随机生成的任务图数据上的模拟实验结果表明提出的域内分散计算任务调度算法综合性能优于基线算法,能够有效降低makespan以及任务执行时延;3)针对跨域分散计算任务调度面临的节点分散性问题,提出了基于深度强化学习方法double dqn的跨域分散计算任务调度算法。设计了一个包含资源信息的状态空间描述方式,并基于Softmax方法实现了对跨域分散节点的采样,减少了跨域分散计算任务调度的簇集。模拟实验结果表明提出的跨域分散计算任务调度算法总体上优于基线算法,实现了跨域分散计算任务调度的资源感知和全局性调度优化。

关键词：分散计算任务调度云计算边缘计算 Q-Learning double dqn

B5G端到端网络切片场景中的智能切换算法研究

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

B5G端到端网络切片场景中的智能切换算法研究

作者：杨枫北京工业大学

学位级别：硕士

随着B5G通信系统中新业务的爆炸式增长,网络切片已成为满足差异化业务需求的重要解决方案。网络切片基于软件定义网络(Software Defined Networking,SDN)和网络功能虚拟化(Network Function Virtualization,NFV)技术实现。一个物理网络... 详细信息

随着B5G通信系统中新业务的爆炸式增长,网络切片已成为满足差异化业务需求的重要解决方案。网络切片基于软件定义网络(Software Defined Networking,SDN)和网络功能虚拟化(Network Function Virtualization,NFV)技术实现。一个物理网络被切分为多个独立的端到端逻辑网络,每个逻辑网络即为一个在物理基础设施上运行的网络切片,能够为用户提供特定的服务。在具有端到端网络切片功能的异构网络(Heterogeneous Networks,Het Nets)中,用户的切换问题比传统Het Nets中的切换问题更为复杂。由于一个网络切片可能只与区域中的部分基站相关联,所以切换需要考虑用户、基站和网络切片三者之间的匹配。此外,端到端网络切片场景中,还需要考虑核心网的传输资源限制。因此,切换问题面临着巨大的状态空间和动作空间以及高通信开销的挑战。本文关注B5G端到端网络切片场景中的切换问题,考虑了无线接入网和核心网的资源状态,研究了基于深度强化学习(Deep Reinforcement Learning,DRL)的智能切换算法。主要研究内容如下:1)针对现有移动通信网络中基于参考信号接收功率(Reference Signal Received Power,RSRP)的切换算法对网络切片系统状态考虑不充分、以传统优化方法为基础的集中式切换优化算法每次进行决策计算复杂度过高的问题,本文采用马尔可夫决策过程(Markov Decision Process,MDP)对考虑通信链路质量、端到端切片资源状态和用户服务质量(Quality of Service,Qo S)需求综合的多维系统状态的切换决策问题进行建模,设计与用户被服务利润、切换成本和中断惩罚相关的累积奖励为优化目标,并基于double dqn(Ddqn)设计了一种智能网络切片切换算法以降低切换决策计算的复杂度。数值结果证实了用于切换决策的Ddqn的收敛性,并表明了与典型的切换算法相比,我们提出的算法在累积奖励方面表现最好。2)针对网络中用户数量较多时集中式切换算法的通信开销和决策复杂度较高、现有分布式切换算法由于用户完全独立的本地训练又面临训练样本不足和模型有效性的区域限制等问题,本文设计了一种以分布式马尔可夫决策过程(Decentralized Markov Decision Process,DEC-MDP)模型为基础的分布式网络切片切换决策方法,改良一般分布式切换方法为不同用户设置不同可行解空间的限制,根据区域内基站、切片的基本部署,为区域内所有用户构建相同的MDP状态空间、动作空间和奖励函数。然后,利用统一模型的优势,设计了一种具有集中训练分布执行架构的基于多智能体Ddqn的分布式切换方法(MA-DdqnDH),利用惩罚函数引导决策智能体规避不可行解,实现了区域内用户切换智能的共享。此外,为了获得理论性能指导,本文还对原始的分布式网络切片切换决策问题进行了简化,给出了基于纳什均衡的性能界。结果表明,基于纳什均衡的性能界是合理的,所提出的MA-Ddqn-DH算法的仿真性能表现突出。

关键词：网络切片切换 double dqn 分布式马尔可夫决策过程纳什均衡多智能体深度强化学习

基于深度强化学习的无人机空战攻防对抗决策方法研究

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于深度强化学习的无人机空战攻防对抗决策方法研究

作者：何金南京航空航天大学

学位级别：硕士

随着无人机技术的发展,对无人机空战攻防对抗决策提出了新的要求。本文以深度强化学习为基础,对复杂空战环境下的无人机空战攻防对抗决策方法进行了研究,主要研究内容包括:针对未知环境下的无人机隐蔽接敌问题,提出了一种基于PRB-Ddqn... 详细信息

随着无人机技术的发展,对无人机空战攻防对抗决策提出了新的要求。本文以深度强化学习为基础,对复杂空战环境下的无人机空战攻防对抗决策方法进行了研究,主要研究内容包括:针对未知环境下的无人机隐蔽接敌问题,提出了一种基于PRB-Ddqn的无人机隐蔽接敌策略。首先,建立一对一无人机隐蔽接敌模型。其次,将优先级随机抽样的方法与double dqn算法结合,提出了PRB-Ddqn算法,加速了网络的训练速度;针对实际空战需要,设计了带角度调节因子的奖赏函数;提出贪婪系数按照指数下降的方法,解决了传统强化学习的“探索利用窘境”。最后,通过仿真实验结果表明,PRB-Ddqn具有很好的收敛性,能有效生成无人机隐蔽接敌策略。针对动态未知环境下的多无人机围捕问题,提出了一种基于状态预测的深度确定性策略梯度(SP-DDPG)的多无人机围捕方法。首先,提出了基于目标搜索与围捕结合的奖赏函数,建立了多无人机围捕的状态预测深度强化学习模型。其次,提出了基于动态滑动采样的状态预测方法,并将状态预测机制与DDPG算法结合,解决了多无人机围捕中的非马尔科夫性问题。最后,通过仿真实验表明,算法具有较好的收敛性,在围捕过程中表现出很好的协作行为,具有较好的围捕效率。针对混合环境下的多对多无人机攻防对抗决策问题,提出了一种基于策略集合的多智能体深度确定性策略梯度(PE-MADDPG)的多无人机协同攻防对抗方法。首先,描述了多无人机攻防对抗问题,建立了多无人机协同攻防对抗的多智能体深度强化学习模型。其次,在MADDPG算法的基础上进行改进,提出了PE-MADDPG算法,解决了多智能体强化学习中的动态不稳定问题。然后,设计了基于群体目标状态的奖励函数,引导多无人机协同攻防策略的学习。最后,对多无人机协同攻防对抗策略的训练效果进行了仿真测试,结果表明,PE-MADDPG算法能够使无人机不断学习和优化协同攻防策略直至收敛,且攻防效率更高,从而赋予无人机很好的协同攻防对抗能力。本章方法为混合环境下多无人机协同攻防对抗问题提供了研究的新思路。

关键词：无人机深度强化学习 double dqn 隐蔽接敌深度确定性策略梯度围捕攻防对抗决策

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

履带式林地林木信息采集机器人路径规划研究

履带式林地林木信息采集机器人路径规划研究

作者：孙彪北京林业大学

学位级别：硕士

传统机器人路径规划主要应用场景在室内或者室外平缓路面,对机器人运动要求较低。林区山地中路径规划需要综合考虑地形、地物等因素,且林区山地中障碍物分布具有随机性、不均匀性等特点,使得机器人在复杂环境中的路径规划问题变得非常... 详细信息

传统机器人路径规划主要应用场景在室内或者室外平缓路面,对机器人运动要求较低。林区山地中路径规划需要综合考虑地形、地物等因素,且林区山地中障碍物分布具有随机性、不均匀性等特点,使得机器人在复杂环境中的路径规划问题变得非常复杂。本文面向林区山地条件下路径规划面临的问题开展研究,解决林区山地条件下机器人运动安全与节能的路径规划问题。本文主要内容和工作如下:(1)构建机器人在非平坦地形下的运动理论模型。通过机器人在二维平面运动模型,拓展到三维地形下的机器人运动,并对其运动姿态解算进行数学建模。(2)采用分布式平面地图构建方法,将林区环境下的机器人运动空间中的信息进行简化、分类,得到机器人地表障碍物信息层与地形障碍物信息层,并通过栅格地图,构建机器人在非平坦地形下的地面高程信息评价模型。(3)针对机器人地表障碍物信息及地形障碍物信息,基于双向RRT算法,通过初始路径引导、目标引导方法进行机器人全局路径规划,并结合贪婪算法思想,添加去除冗余路径点方法。在机器人轨迹优化方面,为了贴合机器人实际运动轨迹,保证路径可以通过路径点,引入Cantmull-Rum样条插值方法进行轨迹优化。(4)在满足机器人运动条件下的非平坦地形中,为了保证机器人能够找到相对较为平坦且路程较短的路径,采用Ddqn算法进行栅格地图局部路径规划,通过机器人周围障碍物信息层与地面高程信息层融合的地图,设计机器人运动状态及奖励函数,进行局部路径规划。(5)依据林区林地条件以及林地林木信息采集需求,设计履带式林地林木信息采集机器人物理样机。为了评价本文提出的路径规划方法的性能,进行实验验证与分析。针对全局路径规划Ms＿Bi RRT算法实验,依据分布式林区地形、地物分类信息,设计三种地图进行比较分析。针对基于Ddqn算法的局部路径规划方法,依据融合林地高度信息层的障碍物栅格地图,进行对比试验。试验研究表明,本文提出的路径规划算法,在全局路径规划中节点有效率提高,规划时间缩短,总节点生成数量降低,机器人可以在地图中找到一条安全通过的路径。局部路径规划中,机器人对周围高程信息具有一定灵敏度,可以在路径长度损失较小的情况下寻找一条使机器人运动相对稳定的路径,机器人运动过程中能量损失较小。

关键词：履带机器人非平坦地形地图构建全局路径规划 double dqn

基于强化学习与博弈树搜索的非完备信息博弈算法的研究与应用

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于强化学习与博弈树搜索的非完备信息博弈算法的研究与应用

作者：雷捷维南昌大学

学位级别：硕士

博弈问题存在于人们生活的各个方面,根据参与者对博弈信息掌握程度的不同,可以把博弈问题分为完备信息博弈和非完备信息博弈两类。在现实生活中,人们往往很难获取到所有的博弈信息,因此很多博弈问题,比如商业谈判、广告定价、军事推演... 详细信息

博弈问题存在于人们生活的各个方面,根据参与者对博弈信息掌握程度的不同,可以把博弈问题分为完备信息博弈和非完备信息博弈两类。在现实生活中,人们往往很难获取到所有的博弈信息,因此很多博弈问题,比如商业谈判、广告定价、军事推演、网络安全等都可以归结为非完备信息博弈。随着人工智能相关技术的不断发展,利用人工智能技术来解决非完备信息博弈已经成为了当前的研究热点,具有十分重要的现实意义。本文主要研究关于麻将的机器博弈问题。在麻将游戏中,对手的手牌信息以及牌库中的信息对于每位参与者来说都是不可见的,因此麻将游戏是典型的非完备信息博弈问题。以往的麻将程序主要是通过Expectimax搜索算法来进行设计的。目前关于Expectimax搜索算法的研究主要集中在两个方面。一方面是研究如何合理地对搜索树的分支进行剪枝,另一方面是研究如何设计合理的估值函数。然而,在麻将博弈问题上,目前Expectimax搜索算法的剪枝策略与估值函数的设计还依赖于人工先验知识,而没有结合强化学习等算法来进行改进。为了解决这个问题,本文提出了一种结合double dqn与Expectimax搜索的非完备信息博弈算法。该算法使用强化学习模型double dqn来改进Expectimax搜索算法的剪枝策略和估值函数。具体来说,在Expectimax搜索树扩展过程中,本文依靠double dqn神经网络输出的估值来设计搜索树的剪枝策略和估值函数。而在double dqn模型训练的过程中,本文通过Expectimax搜索来改进模型的探索策略与奖励函数。最后本论文将改进后的算法应用到非完备信息机器博弈中,实现了麻将智能决策系统。与传统的Expectimax算法构建的麻将程序相比,本论文实现的麻将智能决策系统在胜率上高出2.26%,而在得分上平均每局得分高出185.097分,从而达到了更高的博弈水平。

关键词： double dqn Expectimax搜索非完备信息博弈麻将博弈强化学习

基于深度强化学习和倾摆技术的汽车路径跟踪控制研究

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于深度强化学习和倾摆技术的汽车路径跟踪控制研究

作者：葛振南京林业大学

学位级别：硕士

当无人驾驶车辆以较高的速度进行路径跟踪控制时,车体非常容易侧倾过度而导致失去稳定性甚至侧翻,这是研究无人驾驶车辆路径跟踪技术需要考虑的一个问题。本文将倾摆控制应用到路径跟踪中,通过控制车身向弯道内侧倾斜,从而降低车辆横向... 详细信息

当无人驾驶车辆以较高的速度进行路径跟踪控制时,车体非常容易侧倾过度而导致失去稳定性甚至侧翻,这是研究无人驾驶车辆路径跟踪技术需要考虑的一个问题。本文将倾摆控制应用到路径跟踪中,通过控制车身向弯道内侧倾斜,从而降低车辆横向载荷转移率和乘客感知侧向加速度,提升汽车的舒适性、操纵稳定性和迅速过弯能力,防止侧翻。考虑到强化学习的鲁棒性和稳定性差,以及模型预测控制对计算能力要求高的因素,本文设计一种基于强化学习的触发式路径跟踪模型预测控制器,利用强化学习触发器选择是否进行模型预测控制,并将倾摆控制融入其中,对无人驾驶车辆高速路径跟踪控制进行了深入研究,主要内容如下:(1)在CARLA虚拟场景下基于深度强化学习算法的无人车路径跟踪研究。在CARLA模拟器中选取了实现路径跟踪的地图、车辆和传感器,首先基于纯跟踪算法、模型预测控制算法(Model Predictive Control,MPC)完成了车辆对既定路径的跟踪。然后基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的强化学习算法设计了一种基于运动学的路径跟踪控制器,利用DDPG算法对路径跟踪控制器进行设计,基于开源的深度学习框架Tensorflow搭建DDPG算法的Actor、Critic、目标Actor和目标Critic的网络结构,并对DDPG路径跟踪控制器的奖惩函数进行重新定义,通过多次训练,学习到最终的强化学习路径跟踪策略。最后将训练好的控制器融合进CARLA中的特斯拉Model3上,将其跟踪效果和基于纯跟踪算法的路径跟踪控制器、基于MPC的路径跟踪控制器的跟踪效果进行对比,以此来分析深度强化学习对于本文无人车路径跟踪控制的可行性。(2)基于倾摆技术的路径跟踪强化学习控制研究。建立路面模型和车辆侧倾动力学模型,推导整车侧倾控制系统的状态方程,采用DDPG强化学习算法设计路径跟踪倾摆控制器,实现对期望倾摆角、期望横摆角和参考路径的有效跟踪。采用强化学习训练和学习路径跟踪和汽车倾摆策略,并设置阶跃路径仿真工况验证强化学习倾摆路径跟踪控制器的跟踪效果,分析了不同迭代次数的跟踪效果和不同速度下的跟踪效果。仿真结果表明,所设计的基于倾摆技术的路径跟踪强化学习控制器能够学习路径跟踪策略,车辆能够在不同速度下完成跟踪任务,同时能在跟踪过程中实现车辆的倾摆效果。(3)基于倾摆技术的路径跟踪非线性模型预测控制研究。采用模型预测控制设计路径跟踪倾摆控制器,实现对期望倾摆角、期望横摆角和参考路径的有效跟踪。设置特定的双移线仿真工况验证模型预测控制器的跟踪效果,并将仿真结果与被动悬架进行比较。结果证明,相比于被动悬架,所设计的整车模型预测控制效果更优,显著降低了乘客感知侧向加速度和横向载荷转移率,有效提高了车辆快速过弯的性能。(4)基于强化学习的事件触发路径跟踪非线性模型预测控制研究。为了减小传统非线性模型预测控制算法的计算量,设计了深度强化学习和非线性模型预测控制结合的路径跟踪控制算法,利用深度强化学习double Deep Q-Learning Network算法(double dqn)触发非线性模型预测控制,结果表明,相比于单独使用MPC或DDPG算法,该方法不仅能在车辆跟踪时缩减控制器的计算时间,还能更加精确地跟踪预设轨迹,并且具有更好的鲁棒性和适应性。因此,将倾摆技术、深度强化学习和非线性模型预测控制相结合的方法可以被视为解决路径跟踪问题的有效方案。

关键词：路径跟踪深度强化学习 DDPG double dqn 倾摆控制