咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种数据高效的第三人称模仿学习方法 收藏

一种数据高效的第三人称模仿学习方法

Data Efficient Third-person Imitation Learning Method

作     者:姜冲 章宗长 陈子璇 朱佳成 蒋俊鹏 JIANG Chong;ZHANG Zong-zhang;CHEN Zi-xuan;ZHU Jia-cheng;JIANG Jun-peng

作者机构:苏州大学计算机科学与技术学院江苏苏州215006 南京大学计算机软件新技术国家重点实验室南京210023 

出 版 物:《计算机科学》 (Computer Science)

年 卷 期:2021年第48卷第2期

页      面:238-244页

学科分类:08[工学] 081104[工学-模式识别与智能系统] 0811[工学-控制科学与工程] 

基  金:国家自然科学基金面上项目(61876119) 江苏省自然科学基金面上项目(BK20181432) 中央高校基本科研业务费专项资金(14380005)。 

主  题:模仿学习 第三人称 领域特征 数据高效 图像差分 变分判别器瓶颈 

摘      要:模仿学习提供了一种能够使智能体从专家示范中学习如何决策的框架。在学习过程中,智能体无需与专家进行交互,也不依赖于环境的奖励信号,而只需要大量的专家示范。经典的模仿学习方法需要使用第一人称的专家示范,该示范由一个状态序列以及对应的专家动作序列组成。但是,在现实生活中,专家示范通常以第三人称视频的形式存在。相比第一人称专家示范,第三人称示范的观察视角与智能体的存在差异,导致两者之间缺乏一一对应关系,因此第三人称示范无法被直接用于模仿学习中。针对此问题,文中提出了一种数据高效的第三人称模仿学习方法。首先,该方法在生成对抗模仿学习的基础上引入了图像差分方法,利用马尔可夫决策过程的马尔可夫性质以及其状态的时间连续性,去除环境背景、颜色等领域特征,以得到观察图像中与行为策略最相关的部分,并将其用于模仿学习;其次,该方法引入了一个变分判别器瓶颈,以对判别器进行限制,进一步削弱了领域特征对策略学习的影响。为了验证所提算法的性能,通过MuJoCo平台中的3个实验环境对其进行了测试,并与已有算法进行了比较。实验结果表明,与已有的模仿学习方法相比,该方法在第三人称模仿学习任务中具有更好的性能表现,并且不需要额外增加对样本的需求。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分