检索结果-南通市图书馆

在线全文

学校读者我要写书评

暂无评论

基于深度双q网络的电网关键节点辨识研究

基于深度双Q网络的电网关键节点辨识研究

作者：张岩华北电力大学(北京)

学位级别：硕士

电力已经是数字化、智能化时代最基本最重要的能源供应形式,城市电网如何安全稳定运行是电力公司最为重视的问题之一。短路、设备损坏、过载等等因素导致停电灾难会对社会经济,甚至人身安全造成威胁。并入新能源等发电方式不仅使电网节... 详细信息

电力已经是数字化、智能化时代最基本最重要的能源供应形式,城市电网如何安全稳定运行是电力公司最为重视的问题之一。短路、设备损坏、过载等等因素导致停电灾难会对社会经济,甚至人身安全造成威胁。并入新能源等发电方式不仅使电网节点跳跃式增长,也增加了电网复杂程度和不确定性,极大提升了意外发生的概率。为了让电能持续不断地维系现代文明发展,人们对电力系统做出了各种保护来应对极端情况的发生。一般来说大范围的连锁故障往往是因为某些关键节点出现了问题,如果对关键节点提前辨识加以保护,可以很大程度避免级联故障。现有方法对关键节点识别研究十分充分,但是此类方法需要大量先验知识,且环境发生变化时会影响建模,反复精密计算影响效率,结果鲁棒性不强。强化学习擅长解决复杂多状态、不确定性强的一类问题,深度学习的强感知可以帮助智能体加快学习,两者结合使用能有效弥补现有数理建模计算方法的缺陷。本文使用一种强化学习模型深度双q网络算法来设计辨识电网关键节点问题的逻辑过程,基于对电网环境的简要抽象,分析制定适用于该环境的马尔可夫决策过程,构建智能体在电网环境中活动的状态空间、动作空间,设计结合了拓扑结构和电气距离的奖励函数作为指导,帮助智能体快速学习任意节点间的价值最大路径,进而找到关键节点。针对电网环境的复杂,状态空间大、探索数据多的问题,本文还提出对原有深度双q网络算法进行改进,在对经验池中智能体的探索数据抽样学习时,传统平均随机抽样方法会忽略重要数据,收敛速度极慢。而优先级经验回放法又会导致智能体过多关注重要数据,而忽略了普通数据的学习价值,本文提出的改进优先级经验回放策略对经验数据优先级增加了时间步,重要的数据在经过一定时间步之后会逐渐降低优先级,同时使用频率越多,优先级下降越快,防止智能体陷入局部最优。为验证本文所提方法的可行性与优越性,以IEEE30节点系统作为基础环境详细分析,将本文关键节点辨识结果与其他方法结果做对比,设计出的深度强化学习方法可以准确找到大致相同的关键节点,并且关键节点的顺序也更能体现节点的鲁棒性和电网的抗毁能力。为验证所使用模型的优势,与传统DqN算法、传统平均随机采样和优先级经验回放策略进行对比,并使用IEEE118的更大规模电网环境进行实验,结果表明本文方法无论在关键节点识别结果、亦或智能体学习效率上在大规模网络中表现更为出色。

关键词：强化学习深度双q网络电网关键节点鲁棒性经验回放策略

融合动作剔除的深度竞争双q网络智能干扰决策算法

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

空军工程大学学报（自然科学版） 2021年第4期22卷 92-98页

作者：饶宁许华宋佰霖空军工程大学信息与导航学院西安710077

为解决战场通信干扰决策问题,设计了一种融合动作剔除的深度竞争双q网络智能干扰决策方法。该方法在深度双q网络框架基础上采用竞争结构的神经网络决策最优干扰动作,并结合优势函数判断各干扰动作的相对优劣,在此基础上引入无效干扰动... 详细信息

为解决战场通信干扰决策问题,设计了一种融合动作剔除的深度竞争双q网络智能干扰决策方法。该方法在深度双q网络框架基础上采用竞争结构的神经网络决策最优干扰动作,并结合优势函数判断各干扰动作的相对优劣,在此基础上引入无效干扰动作剔除机制加快学习最佳干扰策略。当面对未知的通信抗干扰策略时,该方法能学习到较优的干扰策略。仿真结果表明,当敌方通信策略发生变化时,该方法能自适应调整干扰策略,稳健性较强,和已有方法相比可达到更高的干扰成功率,获得更大的干扰效能。

关键词：干扰决策深度双q网络竞争网络干扰动作剔除

基于深度双q网络的多用户蜂窝网络功率分配算法研究

在线全文

学校读者我要写书评

暂无评论

计算机应用研究 2021年第5期38卷 1498-1502页

作者：王伟殷爽爽辽宁工程技术大学基础教学部辽宁葫芦岛125105 辽宁工程技术大学电子与信息工程学院辽宁葫芦岛125105

针对现有蜂窝网络功率分配算法存在泛化能力弱、效率低等问题进行了研究,提出基于深度双q网络(deep double q network,DDqN)的功率分配算法。采用双神经网络结构,解决强化学习过程中易出现的维度灾难及值函数过估计问题;对状态信息进行... 详细信息

针对现有蜂窝网络功率分配算法存在泛化能力弱、效率低等问题进行了研究,提出基于深度双q网络(deep double q network,DDqN)的功率分配算法。采用双神经网络结构,解决强化学习过程中易出现的维度灾难及值函数过估计问题;对状态信息进行设计并输入神经网络,输出智能体的动作行为,并设计奖赏函数反馈给神经网络,使智能体可以有效地自主学习,多次迭代得到最优的功率分配策略。仿真结果表明,所提的模型可获得的平均速率为1.89,平均运行时间为0.0013 s,在不同用户密度及小区数量下均可达到最高的平均速率,验证了算法的有效性,为蜂窝网络资源分配问题提供了新的思路。

关键词：蜂窝网络干扰多址信道功率分配深度强化学习深度双q网络

在线全文

学校读者我要写书评

暂无评论

基于权重值的竞争深度双q网络算法

南京信息工程大学学报（自然科学版） 2021年第5期13卷 564-570页

作者：汪晨曦赵学艳郭新华南理工大学自动化科学与工程学院广州510641 广东交通职业技术学院机电工程学院广州510650

在深度强化学习中,深度q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双q网络算... 详细信息

在深度强化学习中,深度q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双q网络算法(Weighted Dueling Double Deep q-Network,WD3qN),把改进的双估计器及竞争网络结构结合至深度q网络中,将学习到的可能动作值进行加权产生最终动作值,有效减少估计误差.最后,将算法应用于Open AI Gym平台上的CartPole经典控制问题,仿真结果显示:与已有算法对比,本算法有更好的学习效果,收敛性和训练速度均有提升.

关键词：深度强化学习深度双q网络竞争网络结构权重值

一种采用Dueling⁃DDqN算法的无线网络MAC协议

在线全文

学校读者我要写书评

暂无评论

北京邮电大学学报 2023年第3期46卷 25-30,55页

作者：杨华耿烜孔宁上海海事大学信息工程学院上海201306 众格智能科技有限公司上海201100

为了在快速变化的无线通信网络中实现系统吞吐量最大化,提出了一种采用竞争架构深度双q网络(dueling⁃DDqN)算法的媒体访问控制协议。该协议将竞争架构q网络算法中的q值运算方法应用于深度双q网络中的q值计算,结合了竞争架构q网络和深度... 详细信息

为了在快速变化的无线通信网络中实现系统吞吐量最大化,提出了一种采用竞争架构深度双q网络(dueling⁃DDqN)算法的媒体访问控制协议。该协议将竞争架构q网络算法中的q值运算方法应用于深度双q网络中的q值计算,结合了竞争架构q网络和深度双q网络的优点,既能够提高q值的计算准确率和收敛性能,又解决了过度估计的问题,提升了系统的整体性能和鲁棒性。仿真实验结果表明,在无线通信系统中,相较于传统深度q网络媒体访问控制(MAC)协议,当所提协议与时分多址协议和ALOHA协议共存时,有效地减少了收敛时间且提高了系统的总吞吐量。

关键词：深度强化学习竞争架构q网络深度双q网络媒体访问控制协议吞吐量

在线全文

学校读者我要写书评

暂无评论

基于离线模型预训练学习的改进DDPG算法

计算机工程与设计 2022年第5期43卷 1451-1458页

作者：张茜王洪格倪亮中原工学院计算机学院河南郑州450007

针对DDPG(deep deterministic policy gradient)在线训练过程中陷入局部极小值及产生大量试错动作和无效数据的问题,提出一种基于离线模型预训练学习的改进DDPG算法。利用已有数据离线训练对象状态模型和价值奖励模型,提前对DDPG中动作... 详细信息

针对DDPG(deep deterministic policy gradient)在线训练过程中陷入局部极小值及产生大量试错动作和无效数据的问题,提出一种基于离线模型预训练学习的改进DDPG算法。利用已有数据离线训练对象状态模型和价值奖励模型,提前对DDPG中动作网络和价值网络进行预训练学习,减少DDPG前期工作量并提升在线学习的品质。加入DDqN(double deep q-Learning network)结构解决q值估计偏高问题。仿真结果中获取平均累积奖励值提升了9.15%,表明改进算法有效提高了DDPG算法效果。

关键词：深度确定性策略梯度离线模型预训练学习深度双q网络累积奖励

在线全文

学校读者我要写书评

暂无评论

基于深度强化学习的生鲜农产品库存控制模型

基于深度强化学习的生鲜农产品库存控制模型

作者：李姣姣浙江理工大学

学位级别：硕士

生鲜农产品指未经加工或经少量加工的初级农产品,包括果蔬、肉类以及水产品等,是日常生活中的必需品。生鲜农产品供应链是一个复杂系统,包括生产、采购、物流和库存等多个环节。其中,库存衔接供给与需求,库存管理不当将导致供应链的上... 详细信息

生鲜农产品指未经加工或经少量加工的初级农产品,包括果蔬、肉类以及水产品等,是日常生活中的必需品。生鲜农产品供应链是一个复杂系统,包括生产、采购、物流和库存等多个环节。其中,库存衔接供给与需求,库存管理不当将导致供应链的上下游协调困难,是供应链中至关重要的一环。当前国内生鲜农产品经营企业大多采取粗放式的库存管理方式,供需和库存管理不当往往会导致运营成本增加、利润下降。另外,区别于一般商品,生鲜农产品具有保质期短、鲜活易腐、存储困难等特性,粗放式的库存管理也容易造成大量损耗,进一步增加成本,所以对其进行科学的库存控制尤为重要。本文针对生鲜农产品库存管理这个实际且具有挑战性的问题,将库存控制问题转换为马尔可夫决策过程,运用近年来崭露头角的深度强化学习和多智能体强化学习方法,新颖地使用三参数Weibull函数描述生鲜农产品的损腐特性,以最小化库存成本为目标,建立生鲜农产品库存控制模型并进行仿真实验验证,实验结果表明,新提出的库存控制模型能够有效地降低生鲜农产品的库存成本和损耗。这对于理解生鲜农产品供应链复杂系统具有理论和实际意义,并且为生鲜农产品库存管理领域提供了新的视角和工具。具体研究内容如下:(1)针对生鲜农产品零售商库存控制中存在的库存容量有限、人为因素干扰、供需不平衡、保质期限制和易腐性等问题,建立基于深度双q网络(Double Deep q Network,DDqN)的生鲜农产品零售商库存控制模型。作为生鲜农产品供应链中直接面向消费者的最后一个环节,零售商对生鲜农产品库存进行科学合理的控制不仅能够提高其自身利润和服务水平,还会对整个供应链的库存效率产生积极影响。本文全面考虑过期、损腐、缺货、订货和持有等成本,从供应链视角建立生鲜农产品库存控制模型,使用深度强化学习中的DDqN方法优化订货以控制库存总成本。实验结果表明,与单周期随机型库存控制模型和固定订货量库存控制模型相比,DDqN库存控制模型的总成本分别降低了约6%和11%,该结果具有实际应用价值,可为零售商制定生鲜农产品库存管理策略提供参考。(2)针对更复杂的生鲜农产品多级库存中存在的牛鞭效应,企业间协作程度偏低等问题,提出了一种基于多智能体的生鲜农产品多级库存控制模型。多级库存管理一直是供应链领域中的难点问题,也是一个研究热点,由于涉及的企业数量众多,不同层级的库存之间难以有效协作。而且多级库存管理需要考虑的因素更多,增加了优化问题的复杂性,为了避免产品断档和积压,必须着眼于解决多级库存问题。本文运用多智能体强化学习思想,从供应链视角抽象出批发商和零售商智能体,使用DDqN算法构建基于多智能体的生鲜农产品多级库存控制模型。该模型基于智能体间的相互合作,优化订货并控制多级库存。实验结果表明,与固定订货量库存控制模型相比,基于多智能体的生鲜农产品两级和三级库存控制模型的库存总成本分别降低了约10%和9%,同时表明基于多智能体的库存控制模型能够减轻供应链中多级库存的牛鞭效应,有效降低各级库存成本,并减少生鲜农产品损耗。

关键词：生鲜农产品深度强化学习深度双q网络多智能体多级库存控制 Weibull函数供应链

面向D2D-NOMA通信的资源分配机制研究

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

面向D2D-NOMA通信的资源分配机制研究

作者：肖琳吉林大学

学位级别：硕士

无线通信技术的飞速发展,以及各类新型通信业务场景的不断涌现,正在促使着人-机-物-空间的全面互联。伴随着网络终端数目的持续增长,无线频谱资源稀缺与频谱利用率之间的矛盾日益显现,加重了整个网络的负担。终端直连通信（Device-to-De... 详细信息

无线通信技术的飞速发展,以及各类新型通信业务场景的不断涌现,正在促使着人-机-物-空间的全面互联。伴随着网络终端数目的持续增长,无线频谱资源稀缺与频谱利用率之间的矛盾日益显现,加重了整个网络的负担。终端直连通信（Device-to-Device,D2D）和非正交多址接入（Non-Orthogonal Multiple Access,NOMA）等下一代无线通信关键技术,可以有效缓解无线频谱资源压力。D2D和NOMA技术的结合将增加系统容量和承载能力,提升频谱利用率和系统吞吐量,具有非常重要的应用价值和研究意义。干扰问题是D2D通信和NOMA技术共同面临的关键问题之一,而通过高效的资源分配策略将有效对干扰进行抑制。基于此,本文拟研究D2D-NOMA通信网络场景下的资源分配技术。在D2D通信与NOMA技术结合形成的“一对二”D2D-NOMA通信簇场景中,本文针对资源分配的两个环节,提出了两种基于深度强化学习框架的D2D-NOMA通信资源分配算法。针对D2D-NOMA通信簇的信道选择和功率控制问题,提出了基于门控循环单元神经网络（Gate Recurrent Unit,GRU）和深度双q学习网络（Double Deep q Network,DDqN）相结合的资源分配算法,将子信道分配和功率控制转化成强化学习问题。将网络视作一个最优方案是由单个智能体最优资源分配策略构成的多智能体系统,利用GRU网络的门结构控制输入和输出,决定输入数据的保留程度,通过历史信息帮助D2D用户预测其他D2D用户的动作,然后将GRU层中输出的数据输入到DDqN中。利用DDqN的扩展性,将D2D发射机的信道选择和功率控制动作设置为资源块和离散功率等级的联合,以最大化吞吐量为目标更新资源分配策略。仿真实验表明,GRU-DDqN算法在较多的接入用户数、通信距离较远、信道条件较差等情形下,吞吐量性能方面均优于DDqN、DqN、随机接入等方案,而且也证明了将D2D与NOMA相结合的优越性。针对D2D-NOMA通信簇内的功率分配问题,提出了基于深度确定性策略梯度（Deep Deterministic Policy Gradient,DDPG）的功率分配算法。由于NOMA接收端解码时可能会发生错误导致失败,本文考虑了NOMA不完美SIC解码场景,分析了在不同SIC参数下所提算法的性能,验证了所提算法在不完美SIC解码条件下的可行性。同时也对系统的功率分配公平性进行了分析,仿真实验表明,此方案相比于PPO算法、随机算法、平均功率分配方案的吞吐量性能得到了有效提升。

关键词： D2D通信非正交多址接入资源分配深度双q网络深度确定性策略梯度

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

反应堆智能自动启堆及监测技术研究

反应堆智能自动启堆及监测技术研究

作者：胡冀锋哈尔滨工程大学

学位级别：硕士

目前反应堆的启堆过程主要由操纵人员手动完成,与满功率运行相比,启堆过程涉及系统众多,步骤复杂且耗时很长,因此容易产生人因事故,进而威胁反应堆的安全。此外,堆芯功率分布在启堆阶段会发生剧烈变化,需要持续监测该过程的堆芯功率分... 详细信息

目前反应堆的启堆过程主要由操纵人员手动完成,与满功率运行相比,启堆过程涉及系统众多,步骤复杂且耗时很长,因此容易产生人因事故,进而威胁反应堆的安全。此外,堆芯功率分布在启堆阶段会发生剧烈变化,需要持续监测该过程的堆芯功率分布。然而,现役运行的大部分反应堆,其固定在堆内中子探测器均无法提供连续的中子信号。堆芯一体化布置的小型模块化反应堆,其内部无法布置过多的中子探测器。堆外中子探测器就成了大部分反应堆的唯一实测中子探头。因此,研究反应堆智能自动启堆方法与堆芯功率分布在线监测方法具有重要意义。对于反应堆自动启堆方法的研究普遍是基于顺序控制的,顺序控制技术在启堆阶段会有所不足,因为反应堆是复杂的非线性系统,想要将启堆过程中如此多的操作任务转化为准确的顺序逻辑是很困难的。在利用堆外探测器的堆芯功率分布监测方法的研究上,过去的研究过于依赖中子输运计算的准确性,或者仅仅考虑堆内各个物理节块与堆外探测器之间简单的线性与非线性关系,未考虑空间上各个物理节块之间的关系。基于此,本文参考手动启堆的操作策略,将人工智能算法应用于反应堆自动启堆领域,基于优先级经验回放深度双q网络(DDqN)框架开发了一种智能自动启堆控制算法,使用UDP协议搭建反应堆仿真机与智能自动启堆算法的在线数据交互平台,通过在线数据交互的方式训练智能自动启堆算法。考虑到堆外探测器的数量过少,本文研究提出了一种本征正交分解-极限学习机(POD-ELM)的堆芯功率分布在线监测方法。使用POD对堆芯功率分布模型进行降阶处理,然后利用ELM拟合堆外探测器与POD正交基系数的关系,获得新的POD正交基系数,进而实现堆芯功率分布的在线监测。仿真结果表明,DDqN智能自动启堆算法能实现反应堆的智能自动启堆,将所有安全参数均控制在启堆规程规定的范围内。对比传统自动启堆方法,DDqN智能自动启堆算法能根据堆芯的状态选择合理的动作,不需要将操作任务完全转换为准确的顺序逻辑。在功率分布在线监测方面,POD-ELM法取得了良好的效果。与传统的堆芯功率在线监测方法相比,POD-ELM法不用过于依赖中子输运计算的求解精度,是一种良好的功率分布在线监测方法。本文的研究对于提升反应堆启堆阶段的自动化水平、提高启堆阶段的安全性和效率具有一定参考价值。

关键词：自动启堆堆芯功率监测深度双q网络本征正交分解极限学习机