基于强化学习的离散事件系统最优定向监控
作者机构:贵州大学电气工程学院 西安电子科技大学机电工程学院
出 版 物:《电子学报》 (Acta Electronica Sinica)
年 卷 期:2024年第09期
页 面:3172-3184页
核心收录:
学科分类:0711[理学-系统科学] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 081101[工学-控制理论与控制工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 071102[理学-系统分析与集成] 081103[工学-系统工程]
基 金:国家自然科学基金(No.52265066,No.62203132) 贵州省省级科技计划资助项目(No.黔科合基础-ZK一般103) 贵州省教育厅青年科技人才成长项目(No.黔教合KY字138号) 贵州省教育厅创新群体(No.黔科合支撑012) 贵州大学科研基金资助项目(No.贵大特岗合字04号)~~
主 题:离散事件系统 定向监控器 强化学习 最优控制 数值优化 交通系统
摘 要:对于多个可控事件(控制指令)允许同时执行的情形,离散事件系统的监控器进行随机选择.然而,在实际应用中,如交通调度、机器人路径规划,可控事件的定向选择和数值优化是必须要考虑和解决的两个问题.对此,引入一种优化机制量化控制成本,将监督控制理论与强化学习结合,提出一种基于强化学习的离散事件系统最优定向监控器求解方法,使被控系统实现以下三个目标:(1)遵循安全性和活性控制规范;(2)每个状态下至多允许一个可控事件执行;(3)从初始状态到标记状态事件执行累计成本最小.首先,建立系统和控制规范的自动机模型,做同步积运算后可得到目标模型,通过定义的成本函数为目标模型中每个事件的执行赋予成本.其次,利用监督控制理论求解无阻塞且行为最大许可的监控器.最后,将监控器转化为马尔可夫决策过程,并利用Q学习算法求解出最优定向监控器.使用单向列车导轨控制案例和多轨道列车控制案例验证所提方法的有效性和正确性.仿真结果表明,所提出方法能够实现系统的无阻塞定向控制,并且使得定向监控器的数值成本最小.