咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于二阶价值梯度模型强化学习的工业过程控制方法 收藏

基于二阶价值梯度模型强化学习的工业过程控制方法

Industrial process control method based on second-ordervalue gradient model reinforcement learning

作     者:张博 潘福成 周晓锋 李帅 Zhang Bo;Pan Fucheng;Zhou Xiaofeng;Li Shuai

作者机构:中国科学院网络化控制系统重点实验室沈阳110016 中国科学院沈阳自动化研究所沈阳110016 中国科学院机器人与智能制造创新研究院沈阳110169 中国科学院大学北京100049 

出 版 物:《计算机应用研究》 (Application Research of Computers)

年 卷 期:2024年第41卷第8期

页      面:2434-2440页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:中国科学院沈阳自动化研究所基础研究计划资助项目(2022000346) 

主  题:工业过程控制 模型强化学习 二阶价值梯度 状态价值函数 状态采样策略 

摘      要:为了实现对高延时、非线性和强耦合的复杂工业过程稳定准确的连续控制,提出了一种基于二阶价值梯度模型强化学习的控制方法。首先,该方法在模型训练过程中加入了状态价值函数的二阶梯度信息,具备更精确的函数逼近能力和更高的鲁棒性,学习迭代效率更高;其次,通过采用新的状态采样策略,可以更高效地利用模型进行策略学习。最后,通过在OpenAI的Gym公共实验环境和两个工业场景的仿真环境的实验表明:基于二阶价值梯度模型对比传统的基于最大似然估计模型,环境模型预测误差显著降低;基于二阶价值梯度模型的强化学习方法学习效率优于现有的基于模型的策略优化方法,具备更好的控制性能,并减小了控制过程中的振荡现象。可见该方法能有效地提升训练效率,同时提高工业过程控制的稳定性和准确性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分