基于积分强化学习的多移动机器人协调跟踪控制器设计
作者单位:重庆大学
学位级别:硕士
导师姓名:陈刚;张元禾
授予年度:2022年
学科分类:080202[工学-机械电子工程] 08[工学] 0804[工学-仪器科学与技术] 0802[工学-机械工程] 0835[工学-软件工程] 080201[工学-机械制造及其自动化]
摘 要:多移动机器人在国防、航空航天、运输等领域应用广泛。其中,多移动机器人一致性控制是一个核心问题,即要求设计一致性控制算法使系统的状态或输出达成一致。多机器人系统具有不确定且受到外部不确定干扰,因此研究不确定非线性多机器人系统的分布式一致性跟踪控制具有实际意义。为增强多机器人系统适应环境的能力,本文采用一种积分强化学习的方法,研究跟随者存在通信时滞、外部扰动以及输入约束下的最优输出协调跟踪控制问题,设计一类基于积分强化学习的一致性跟踪控制算法。最后进行一致性跟踪控制实验,验证算法的有效性。主要研究工作如下:首先,研究一类存在通信时滞、外部扰动以及输入约束下的非线性多移动机器人系统协调跟踪控制问题。设计一种含有内部奖励函数的双积分强化学习算法,得到HJB方程的最优控制解。在考虑时间延迟的基础上,基于增广邻域误差系统,利用策略迭代技术获得最优控制律。接着,针对非线性多机器人系统中存在的扰动项,设计一种非线性扰动观测器,对系统的收敛性能进行分析。最后,引入饱和输入约束,设计积分强化学习控制策略,分析多移动机器人系统收敛性能。其次,进一步研究模型未知的非线性多移动机器人系统协调跟踪控制问题。首先,为实现对跟随者状态的跟踪,针对每个机器人设计一种基于神经网络的跟随者状态观测器。接着,给出一种基于actor-critic神经网络的在线策略积分强化学习算法,采用基于数据的方法来近似得到HJB方程的最优控制解。提出的非线性多移动机器人自适应跟踪控制算法利用两个actor-critic神经网络,通过同时调整权重并施加持续激励的方式来保证critic神经网络收敛到实际的最优值。通过在actor神经网络调节律中引入扰动补偿控制项,保证闭环系统的动态稳定性。最后,搭建含有一个领导者和两个跟随者的多履带式移动机器人实验平台,并进行相应的单机器人移动测试实验与多机器人协调跟踪控制实验以验证算法的可行性。