基于迁移强化学习的六足机器人避障研究
作者单位:西南科技大学
学位级别:硕士
导师姓名:留沧海
授予年度:2021年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 080202[工学-机械电子工程] 081104[工学-模式识别与智能系统] 08[工学] 0804[工学-仪器科学与技术] 0835[工学-软件工程] 0802[工学-机械工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:在应对地震救援和特殊环境中非结构路况下的救援任务时,六足机器人相较于其他移动机器人具有冗余自由度多、能适应更多复杂地形等优势。传统的预先编程、遥操作等机器人控制方法,需要人为判定机器人的躲避方式。移动机器人不能在避障过程中利用自身避障经验进行避障策略优先,存在任务工作量繁杂、工作效率低下的情况。这导致移动机器人不能应用在多任务目标且环境更加复杂的场景。因此研究一种可迁移的六足机器人自主避障算法具有重要研究意义。针对六足机器人采用传统算法进行避障时,结果易出现局部最优、不同避障任务间的模型不可相互迁移学习等问题。本文开展一种基于迁移强化学习的六足机器人自主避障研究。为实现六足机器人能够在有多类型障碍物的环境中进行自主避障任务,本文所开展的主要研究内容如下:(1)分析了六足机器人的足端工作空间。根据六足机器人的足端工作空间设计出一种具有多类型障碍物的避障环境。研究了基于深度强化学习的六足机器人自主避障模型和基于双重深度强化学习(Double Deep Q Network,Double-DQN)框架下的六足机器人运动状态空间表达方法。设计一个端到端的离散动作空间求解策略,让六足机器人在局部环境中根据障碍物反馈的特征信息来执行正确的避障动作。(2)针对传统的深度强化学习算法训练模型容易导致结果过度估计状态动作值,奖励稀疏导致模型不易采集到正样本等问题。本文采用基于势能的奖励回报函数来激励六足机器人完成目标任务,并结合随机优先级抽样方法提高训练价值高的样本被抽取的概率。通过在仿真器中训练基于本文改进后的Double-DQN算法的六足机器人避障模型,再将模型的训练效果与传统的DQN、Double-DQN算法的训练效果进行对比。(3)针对六足机器人直接在现实环境中进行避障训练,会出现数据采样效率低、样机与障碍物产生碰撞造成零件出现不可逆损伤等情况。本文采用迁移学习中的渐进式网络(Progressive Neural Network,PNN)来实现模型的多环境迁移。实验将基于Double-DQN算法训练后的机器人自主避障模型作为预训练模型,将不同的预训练模型有机结合为渐进式网络结构,进而完成从源任务到目标任务的避障策略迁移。然后将仿真器中训练后的PNN结构移植到六足机器人样机中测试,最终测试结果验证了本文设计的六足机器人自主避障方法的有效性。