咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于AM-RPPO的双足机器人适应性行走控制算法 收藏

基于AM-RPPO的双足机器人适应性行走控制算法

AM-RPPO Based Control Method for Biped Adaptive Locomotion

作     者:马璐 刘成菊 林立民 徐斌辰 陈启军 MA Lu;LIU Chengju;LIN Limin;XU Binchen;CHEN Qijun

作者机构:同济大学电子与信息工程学院 

出 版 物:《机器人》 (Robot)

年 卷 期:2019年第41卷第6期

页      面:731-741页

核心收录:

学科分类:081104[工学-模式识别与智能系统] 08[工学] 0811[工学-控制科学与工程] 

基  金:国家自然科学基金(61573260,61673300) 上海市“科技创新行动计划”基础研究领域项目(16JC1401200,17511108602,18DZ1200804) 江苏省自然科学基金(BK20171250) 

主  题:深度强化学习 循环神经网络 注意力机制 自适应双足行走 

摘      要:提出了一种带有注意力机制和循环近端策略优化(AM-RPPO)的深度强化学习(DRL)方法并将其应用于双足机器人的适应性行走控制.首先,对未知环境下双足机器人关节空间行走控制问题依照部分可观测马尔可夫决策过程(POMDP)进行建模,指出了DRL算法近端策略优化(PPO)对真实状态的估计存在偏差的问题.其次,引入循环神经网络(RNN)架构,分析了RNN对时序环境观测状态不同于多层感知机的正向传播过程,说明了RNN相对于传统神经网络的优势,并且将RNN分别嵌入动作生成网络和价值函数生成网络中.再次,引入在深度学习诸多领域应用广泛的注意力机制(AM),利用AM建立基于不同时间步的状态,求得最终价值函数的权重差异化模型.最后,通过仿真实验验证了提出的AM-RPPO算法对存在高维状态信息输入的双足机器人控制问题的有效性.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分