基于深度强化学习的机械臂自适应滑模鲁棒轨迹跟踪控制研究
作者单位:广州大学
学位级别:硕士
导师姓名:黄文恺
授予年度:2022年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 080202[工学-机械电子工程] 081104[工学-模式识别与智能系统] 08[工学] 0804[工学-仪器科学与技术] 0835[工学-软件工程] 0802[工学-机械工程] 0811[工学-控制科学与工程] 080201[工学-机械制造及其自动化] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:机械臂 深度强化学习 自适应控制 滑模鲁棒控制 奖励函数
摘 要:机械臂的动力学具有高度非线性和强耦合等特性,在运动过程中还存在建模误差、未建模动态、关节之间的摩擦、时变外部干扰、参数的测量误差等一系列影响因素,导致难以获取精确的动力学模型,从而影响机械臂的控制效果。因此,有必要对非线性动力学模型进行补偿或者近似处理来提高控制性能。另外,现有的许多控制方法并不具备出色的学习能力,无法在控制过程中学习自适应的控制规律,从而通过控制过程中的信息和被控对象的状态实时调整控制系统的结构或者参数来适应难以预测的不确定性因素。本文对于具有不确定性动力学模型的机械臂,提出了一种基于深度强化学习的自适应滑模鲁棒控制方法,将动力学模型的各种不确定性因素综合为系统的不确定性,利用鲁棒控制消除系统不确定性因素的影响。同时,根据控制过程中的信息和机械臂的状态作为深度强化学习智能体的观测量,在连续的动作空间中调整滑模鲁棒控制器的参数,使系统稳定在最优或者次最优的工作状态。为保证深度强化学习智能体的高效稳定学习,提出了一种结合高斯函数与欧式距离的奖励函数。本文的主要研究内容如下:(1)基于运动学与动力学的理论知识,对二自由度机械臂的正向运动学与逆运动学进行了分析与推导。利用拉格朗日函数的理论知识建立了二自由度机械臂的动力学模型并介绍了相关的动力学特性。(2)基于滑模控制与鲁棒控制的相关理论知识,提出了一种滑模鲁棒(SMR)控制器,利用滑模控制对标称模型进行控制,鲁棒控制用于消除建模误差与时变干扰等不确定性因素的影响。通过Lyapunov稳定性理论证明了闭环控制系统的渐进稳定性。仿真结果表明,SMR控制器对具有不确定性动力学模型的机械臂具有良好的轨迹跟踪控制性能和鲁棒性。(3)基于深度强化学习的基本理论知识,提出了一种基于深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)的自适应滑模鲁棒控制方法(DDPGSMR),利用DDPG算法根据控制过程信息与机械臂的运行状态,对SMR控制器的参数进行实时调整,使系统保持最优或者次最优的工作状态。仿真结果表明,在SMR控制器的基础上引入DDPG算法对控制器的参数进行整定和实时优化可以有效的改善轨迹跟踪控制的性能并且提高控制系统的适应性和抗干扰性。为了更加全面的分析DDPGSMR的控制性能,将PD、基于径向基函数神经网络(RBFNN)逼近的自适应控制、SMR与DDPGSMR进行轨迹跟踪控制对比。结果表明,DDPGSMR具有更好的轨迹跟踪性能和瞬态性能以及稳态性能。(4)在仿真实验的基础上,搭建了二自由度机械臂的实验平台对DDPGSMR进行轨迹跟踪控制实验。实验结果表明,本文所提出的控制方法可以有效的控制机械臂并且具有较好的适应性。