基于改进PPO算法的机械臂动态路径规划
作者机构:西安电子科技大学机电工程学院 北京航空航天大学自动化科学与电气工程学院 北京市复杂产品先进制造系统工程技术研究中心北京仿真中心
出 版 物:《系统仿真学报》 (Journal of System Simulation)
年 卷 期:2024年
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 080202[工学-机械电子工程] 081104[工学-模式识别与智能系统] 08[工学] 0804[工学-仪器科学与技术] 0835[工学-软件工程] 0802[工学-机械工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:中央高校基本科研业务费专项资金、西安电子科技大学研究生创新基金、机电集成学科交叉问题研究(YJSJ24001) 国家自然科学基金(61973243)
主 题:动态路径规划 改进PPO算法 LSTM网络 人工势场法 ML-Agents
摘 要:针对非结构化环境下机械臂路径规划面临的环境不确定性因素增多、建模难度大等问题,提出了一种基于改进近端策略优化(Proximal Policy Optimization, PPO)算法的机械臂动态路径规划方法。首先,针对由于动态环境中障碍物数量变化而导致的状态空间输入长度不固定的问题,提出了基于LSTM网络的环境状态输入处理方法,并对PPO算法的网络结构进行了改进。其次,为进一步提高算法对动态环境的适应性,基于人工势场法设计了奖励函数,并建立机械臂碰撞检测模型。最后,基于Unity3D搭建了仿真实验环境,并结合ML-Agents进行了多组仿真和物理实验。实验结果表明,改进的PPO算法能够适应场景中障碍物数量和位置的变化,并且比传统的PPO算法具有更快的收敛速度和稳定性。