基于强化学习的多机器人联合导航方法
学位级别:硕士
导师姓名:宁立;张涌
授予年度:2022年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 080202[工学-机械电子工程] 081104[工学-模式识别与智能系统] 08[工学] 0804[工学-仪器科学与技术] 0835[工学-软件工程] 0802[工学-机械工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着人工智能和机器人技术的发展,机器人以较低的成本和较高的自由度开始在在搜索救援,物流,仓储等场景占据一席之地。新时代也对机器人的运动提出了更高的要求,如何在众多的运动物体的场景中合理的规划出安全路径的问题是对当前移动机器人面临的一大挑战。以往,在面对物体碰撞时算法的要求是保持静止,以避免主动碰撞物体。而在动态场景中只要发生碰撞就会带来严重的后果,如在自动驾驶中,车祸的发生带来的后果都是无法承受的。因此需要一种新的建模方法能够为机器人在动态场景中提高感知能力。我们通过强化学习方法对于动态场景优秀的建模能力来提高机器人对于动态场景的理解,从而控制机器人做出正确的动作策略。鉴于以上的背景,本文中主要解决了两个主要工作内容:(1)改进了分布式强化学习训练框架,为后文算法模型的训练提供高效平台;(2)设计基于强化学习的分层导航模型。第一点工作主要针对于解决强化学习模型训练过慢的问题。在传统单进程强化学习模型里,由于采集数据和学习经验是轮流执行的,因此在算法执行时总有一个模块处于等待阶段,造成了大量的性能浪费,因此本文提出了一种缓冲机制改进现有的分布式结构,可以将采集数据和学习经验解耦的算法框架,实现算法的并行执行,提高算法的执行效率。第二点工作主要针对与多机器人在未知环境中的动态导航问题。本文使用ROS机器人操作系统,搭配完善的仿真器,实现实体模型与虚拟模型联合调优,可以在仿真器与真实环境中改进算法;本文提出了使用分层导航的思想,提出了使用A*全局导航加强化学习的局部导航的结合方法,提升了机器人对于未知动态场景的感知;此外根据演员评论家算法,提出了多评论家的模型优化方法,进一步提升了导航算法的性能。使得该算法在动态场景下,对于二维网格导航方法在平均碰撞次数以及导航成功率上均占优势;在场景迁移时仍然保持算法性能;并且可用于多机器人动态导航场景。