咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于强化学习方法的连续/离散时间随机系统最优控制 收藏
基于强化学习方法的连续/离散时间随机系统最优控制

基于强化学习方法的连续/离散时间随机系统最优控制

作     者:孙廷坤 

作者单位:齐鲁工业大学 

学位级别:硕士

导师姓名:严志国

授予年度:2024年

学科分类:12[管理学] 07[理学] 08[工学] 070105[理学-运筹学与控制论] 071101[理学-系统理论] 0711[理学-系统科学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 0835[工学-软件工程] 081101[工学-控制理论与控制工程] 0811[工学-控制科学与工程] 0701[理学-数学] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:强化学习 随机系统 最优控制 维纳和泊松噪声 

摘      要:随着对复杂系统和随机现象的深入研究,许多实际系统不仅具有马尔科夫跳变的特性,同时还受到维纳和泊松噪声的影响,而且系统的数学模型往往难以获得甚至根本无法建立,这也为系统的分析和控制带来了巨大的挑战。不同于其他控制方法,强化学习方法不需要系统的具体知识,而是使用系统的状态信息来学习和调整控制策略。因此,针对带有多噪声的连续和离散时间随机系统的最优控制问题,本文基于数据驱动方法设计新的策略迭代学习算法来获得系统最优解,具体内容如下: (1)对于连续时间的随机系统,研究了包含维纳和泊松噪声的随机马尔科夫跳变系统的最优控制。首先,通过It?-Levy公式和完全平方技术推导了系统的随机耦合代数黎卡提方程。然后,利用子系统转换技术和积分强化学习方法,设计了一个部分无模型的强化学习算法,该算法能够在只知道部分系统特性情况下找到最优解。其次,通过系统重构和方程转换,提出了一个无模型的强化学习算法,仅使用状态轨迹信息就能得到最优解,且不受泊松跳跃强度变化的影响。最后通过数值仿真验证了算法的效果。 (2)对于离散时间的随机系统,通过构建Bellman方程和Hamilton函数证明了离散系统的随机代数黎卡提方程。然后,利用系统重构和方程转换,设计了一个无模型的强化学习算法,该算法同样仅利用状态轨迹信息来找到最优解,且不受泊松跳跃强度变化的影响。最后通过数值仿真验证了算法的有效性。 (3)对于所给出的带有泊松跳跃强度λ的随机代数黎卡提方程,设计了一个搜索算法来求解在不同的收敛精度和方程误差下λ的最大值。该算法基于所得到的策略迭代优化方法,不断调整λ值,并根据预设的阈值条件来判断是否找到了最优解。 总之,通过对带有多噪声的随机系统的最优控制研究,不仅拓展了随机代数黎卡提方程解的范围,也为实际系统的分析和控制提供了有效的理论支持。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分