检索结果-南通市图书馆

基于改进q学习算法和组合模型的超短期电力负荷预测

在线全文

学校读者我要写书评

暂无评论

电力系统保护与控制 2024年第9期52卷 143-153页

作者：张丽李世情艾恒涛张涛张宏伟河南理工大学电气工程与自动化学院河南焦作454003 河南省煤矿装备智能检测与控制重点实验室河南焦作454003 国网山西省电力公司临汾供电公司山西临汾041000

单一模型在进行超短期负荷预测时会因负荷波动而导致预测精度变差,针对此问题,提出一种基于深度学习算法的组合预测模型｡首先,采用变分模态分解对原始负荷序列进行分解,得到一系列的子序列。其次,分别采用双向长短期记忆网络和优化后的... 详细信息

单一模型在进行超短期负荷预测时会因负荷波动而导致预测精度变差,针对此问题,提出一种基于深度学习算法的组合预测模型｡首先,采用变分模态分解对原始负荷序列进行分解,得到一系列的子序列。其次,分别采用双向长短期记忆网络和优化后的深度极限学习机对每个子序列进行预测。然后,利用改进q学习算法对双向长短期记忆网络的预测结果和深度极限学习机的预测结果进行加权组合,得到每个子序列的预测结果。最后,将各个子序列的预测结果进行求和,得到最终的负荷预测结果。以某地真实负荷数据进行预测实验,结果表明所提预测模型较其他模型在超短期负荷预测中表现更佳,预测精度达到98%以上。

关键词： q学习算法负荷预测双向长短期记忆深度极限学习机灰狼算法

维普期刊数据库博看期刊

在线全文

学校读者我要写书评

暂无评论

基于q学习算法的摘挂列车调车作业计划优化

中国铁道科学 2022年第1期43卷 163-170页

作者：施俊庆陈林武林柏梁孟国连夏顺娅浙江师范大学工学院浙江金华321004 浙江师范大学浙江省城市轨道交通智能运维技术与装备重点实验室浙江金华321004 北京交通大学交通运输学院北京100044

针对摘挂列车编组调车作业计划编制问题,基于强化学习技术和q学习算法,提出1种调车作业计划优化方法。在表格调车法的基础上,将调车作业计划分为下落和重组2个部分。通过动作、状态和奖励3要素构建调车作业问题的强化学习模型,以调车机... 详细信息

针对摘挂列车编组调车作业计划编制问题,基于强化学习技术和q学习算法,提出1种调车作业计划优化方法。在表格调车法的基础上,将调车作业计划分为下落和重组2个部分。通过动作、状态和奖励3要素构建调车作业问题的强化学习模型,以调车机车为智能体,以车组下落的股道编号为动作,以待编车列的下落情况为状态,形成车组挂车、摘车具体条件和车辆重组流程,并依据车组下落的连接状态和车辆重组后产生的总调车程设计奖励函数。改进q学习算法求解模型,以最小化调车程为目标,建立待编车列与最优调车作业计划之间的映射关系,智能体学习充分后即可求解得到最优的调车作业计划。通过3组算例对比验证本方法效果,结果表明:相较于统筹对口法和排序二叉树法,本方法使用的股道数量更少、调车作业计划更优;相较于分支定界法,本方法可在更短时间内求解质量近似的调车作业计划。因而,本方法有助于提高车站调车作业计划编制的智能化决策水平。

关键词：铁路运输调车作业强化学习摘挂列车 q学习算法

状态翻转控制下布尔控制网络的可镇定性和q学习算法

在线全文

学校读者我要写书评

暂无评论

控制理论与应用 2021年第11期38卷 1743-1753页

作者：刘洋刘泽娇卢剑权浙江师范大学数学与计算机科学学院浙江金华321004 浙江师范大学数理医学院浙江金华321004 金华市智能制造研究院浙江金华321032 东南大学数学学院江苏南京210096

在给定一个子集的条件下,本文研究了在状态翻转控制下布尔控制网络的全局镇定问题.对于节点集的给定子集,状态翻转控制可以将某些节点的值从1(或0)变成0(或1).将翻转控制作为控制之一,本文研究了状态翻转控制下的布尔控制网络.将控制输... 详细信息

在给定一个子集的条件下,本文研究了在状态翻转控制下布尔控制网络的全局镇定问题.对于节点集的给定子集,状态翻转控制可以将某些节点的值从1(或0)变成0(或1).将翻转控制作为控制之一,本文研究了状态翻转控制下的布尔控制网络.将控制输入和状态翻转控制结合,提出了联合控制对和状态翻转转移矩阵的概念.接着给出了状态翻转控制下布尔控制网络全局稳定的充要条件.镇定核是最小基数的翻转集合,本文提出了一种寻找镇定核的算法.利用可达集的概念,给出了一种判断全局镇定和寻找联合控制对序列的方法.此外,如果系统是一个大型网络,则可以利用一种名为q学习算法的无模型强化学习方法寻找联合控制对序列.最后给出了一个数值例子来说明本文的理论结果.

关键词：布尔控制网络半张量积状态翻转控制全局镇定性 q学习算法

在线全文

学校读者我要写书评

暂无评论

q学习算法中网格离散化方法的收敛性分析

控制理论与应用 1999年第2期16卷 194-198页

作者：蒋国飞高慧琪吴沧浦北京理工大学自动控制系北京100081

q学习算法是Watkins[1] 提出的求解信息不完全马尔可夫决策问题的一种强化学习方法 .要用q学习算法来求解有连续状态和决策空间的随机最优控制问题 ,则需要先离散化问题的状态和决策空间 .在本文中 ,我们证明了在满足一定的Lipschitz连... 详细信息

q学习算法是Watkins[1] 提出的求解信息不完全马尔可夫决策问题的一种强化学习方法 .要用q学习算法来求解有连续状态和决策空间的随机最优控制问题 ,则需要先离散化问题的状态和决策空间 .在本文中 ,我们证明了在满足一定的Lipschitz连续性和有关集合为紧集的条件下 ,随着网格密度的增加 ,空间离散化后q学习算法求得的最优解依概率

关键词： q学习算法网格离散化收敛性马尔可夫决策

基于q学习算法的两交叉口信号灯博弈协调控制

在线全文

学校读者我要写书评

暂无评论

系统仿真学报 2007年第18期19卷 4253-4256页

作者：赵晓华李振龙于泉荣建北京工业大学北京市交通工程重点实验室北京100022 北京工业大学电子信息与控制工程学院北京100022

q学习和博弈论相结合解决相邻两交叉口信号灯协调控制问题。在基本q学习算法的基础上引入博弈论,以q值作为赢得函数建立赢得矩阵。相邻两交叉口之间的协调关系属于二人非零和合作博弈,采用Nash公理方法求得其谈判解,并以此作为q学习策... 详细信息

q学习和博弈论相结合解决相邻两交叉口信号灯协调控制问题。在基本q学习算法的基础上引入博弈论,以q值作为赢得函数建立赢得矩阵。相邻两交叉口之间的协调关系属于二人非零和合作博弈,采用Nash公理方法求得其谈判解,并以此作为q学习策略选择的依据实现两交叉口协调控制。应用Paramics交通仿真软件进行算法仿真,结果表明该方法的有效性。

关键词：博弈论 q学习算法 Nash公理方法两交叉口信号灯协调控制

在线全文

学校读者我要写书评

暂无评论

基于q学习算法的综合能源系统韧性提升方法

电力自动化设备 2020年第4期40卷 146-152页

作者：吴熙唐子逸徐青山周亦洲东南大学电气工程学院江苏南京210096 河海大学能源与电气学院江苏南京210098

将综合能源系统随机动态优化问题建模为马尔可夫决策过程,并引入q学习算法实现该复杂问题的求解。针对q学习算法的弊端,对传统的q学习算法做了2个改进:改进了q值表初始化方法,采用置信区间上界算法进行动作选择。仿真结果表明:q学习算... 详细信息

将综合能源系统随机动态优化问题建模为马尔可夫决策过程,并引入q学习算法实现该复杂问题的求解。针对q学习算法的弊端,对传统的q学习算法做了2个改进:改进了q值表初始化方法,采用置信区间上界算法进行动作选择。仿真结果表明:q学习算法在实现问题求解的同时保证了较好的收敛性,改进的初始化方法和采用的置信区间上界算法能显著提高计算效率,使结果收敛到更优解;与常规混合整数线性规划模型相比,q学习算法具有更好的优化结果。

关键词：综合能源系统孤岛运行马尔可夫决策过程 q学习算法韧性

在线全文

学校读者我要写书评

暂无评论

q学习算法在库存控制中的应用

自动化学报 1999年第2期25卷 236-241页

作者：蒋国飞吴沧浦北京理工大学自动控制系

Ｑ学习算法是Ｗａｔｋｉｎｓ提出的求解信息不完全马尔可夫决策问题的一种强化学习方法．这里提出了一种新的探索策略，并将该策略和Ｑ学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题．仿真表明，该方法所求解的... 详细信息

Ｑ学习算法是Ｗａｔｋｉｎｓ提出的求解信息不完全马尔可夫决策问题的一种强化学习方法．这里提出了一种新的探索策略，并将该策略和Ｑ学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题．仿真表明，该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近，从而证实了Ｑ学习算法在一些系统模型未知的工程控制问题中的应用潜力．

关键词：马尔可夫决策库存控制运筹学 q学习算法

在线全文

学校读者我要写书评

暂无评论

基于预测状态表示的q学习算法

西安交通大学学报 2008年第12期42卷 1472-1475,1485页

作者：刘云龙李人厚刘建书西安交通大学系统工程研究所西安710049

针对不确定环境的规划问题,提出了基于预测状态表示的q学习算法.将预测状态表示方法与q学习算法结合,用预测状态表示的预测向量作为q学习算法的状态表示,使得到的状态具有马尔可夫特性,满足强化学习任务的要求,进而用q学习算法学习智能... 详细信息

针对不确定环境的规划问题,提出了基于预测状态表示的q学习算法.将预测状态表示方法与q学习算法结合,用预测状态表示的预测向量作为q学习算法的状态表示,使得到的状态具有马尔可夫特性,满足强化学习任务的要求,进而用q学习算法学习智能体的最优策略,可解决不确定环境下的规划问题.仿真结果表明,在发现智能体的最优近似策略时,算法需要的学习周期数与假定环境状态已知情况下需要的学习周期数大致相同.

关键词：不确定环境规划预测状态表示 q学习算法奶酪迷宫

在线全文

学校读者我要写书评

暂无评论

集装箱码头集卡调度模型与q学习算法

哈尔滨工程大学学报 2008年第1期29卷 1-4页

作者：曾庆成杨忠振大连海事大学交通工程与物流学院辽宁大连116026

研究集装箱码头装卸过程中集卡调度问题,建立了集卡调度动态模型,目的是使装卸桥等待时间最小.设计了基于q学习算法的求解方法,获得在不同状态下的集卡调度策略.提出了应用q学习算法求解集卡最优调度时系统状态、动作规则、学习步长与... 详细信息

研究集装箱码头装卸过程中集卡调度问题,建立了集卡调度动态模型,目的是使装卸桥等待时间最小.设计了基于q学习算法的求解方法,获得在不同状态下的集卡调度策略.提出了应用q学习算法求解集卡最优调度时系统状态、动作规则、学习步长与折扣因子的选择方法.结果表明,随着集卡数量的增加,q学习算法获得的结果优于最长等待时间、最远距离、固定分配集卡等调度策略.

关键词：集装箱码头强化学习集卡调度 q学习算法