基于柔性致动评价的超冗余度连续体机器人末端位置控制
作者单位:上海交通大学
学位级别:硕士
导师姓名:吴建华
授予年度:2021年
学科分类:080202[工学-机械电子工程] 08[工学] 0804[工学-仪器科学与技术] 0802[工学-机械工程]
主 题:超冗余度连续体 深度强化学习 柔性致动评价 模型轨迹采样
摘 要:超冗余度连续体机器人因具有灵活的多自由度,在复杂受限空间内具有出色介入能力。此类机器人一般由绳索驱动,在长时间工作后,由于制作、磨损、绳索变形等因素易导致理论模型偏离实际工况,进而导致控制精度下降。因而,基于先验知识的控制器设计,往往不能维持其设计初期的控制性能。为解决这一问题,本文基于强化学习算法,对连续体机器人末端位置控制展开研究,主要工作如下:(1)建立了柔性致动评价的理论基础,通过调研,探讨了无模型和有模型两类方法的优缺点,并分析对比值函数迭代、策略梯度等优化方法。在此基础上,讨论了深度强化学习和最大熵理论。(2)对超冗余度连续体末端位置控制过程进行了强化学习建模,针对连续体状态输入和动作输出维度空间较高,训练难以直接收敛问题,基于柔性致动评价算法(Soft Actor-Critic,SAC),设计网络结构,并探索训练方法。在稀疏回报问题处理上,引入由末端位置、行为引导和动作惩罚三方面组成的奖励函数,根据训练过程对回报函数动态调整,引导加速网络收敛。针对连续体多自由度导致的最优Q值多模分布情况,结合SAC动作熵设计,引入探索噪声,使得动作有限制随机化。建立连续体仿真环境,验证SAC算法控制可行性,并对算法控制性能展开分析。(3)针对SAC算法数据利用率低下问题,引入底部集成状态转移神经网络模型,结合模型预测控制和交叉熵方法对推理决策部分进行设计,建立基于模型的轨迹采样方法(MBTS),并在仿真中对算法可行性进行验证。在状态转移模型方面,分别对比数学模型与网络模型控制效果差异,探究超参数对于控制效果影响,分析不同控制区域目标点到达成功率,并对推理决策层稳定性开展验证。通过增加误差偏置,对比了网络模型和数学模型对于实际模型因磨损、变形等因素导致模型改变情况下的适应能力。(4)根据模型轨迹采样方法,在连续体实体机器人上开展算法验证实验。搭建由运动捕捉系统等硬件组成的实验平台,建立TCP通信机制。在控制算法应用方面,分别使用数学模型和网络模型完成圆运动轨迹规划与实体验证;通过少量训练迭代,基于MBTS完成复杂轨迹运动规划,并在连续体机器人上进行实体验证,在XYZ三方向均达到了1cm以内的控制精度。