随机集成策略迁移
Stochastic Ensemble Policy Transfer作者机构:南京大学计算机软件新技术国家重点实验室南京210023
出 版 物:《计算机科学与探索》 (Journal of Frontiers of Computer Science and Technology)
年 卷 期:2022年第16卷第11期
页 面:2531-2536页
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:科技创新2030“新一代人工智能”重大项目(2020AAA0107200) 国家自然科学基金(61876119) 江苏省自然科学基金面上项目(BK20181432)
主 题:迁移学习(TL) 强化学习(RL) 策略迁移 选项学习 集成 策略蒸馏
摘 要:强化学习(RL)在序列决策问题上取得了巨大的成功。随着强化学习的飞速发展,迁移学习(TL)成为了一种重要的可以通过利用和转移外部知识来加速强化学习的技术。策略迁移是一种外部知识来自教师策略的迁移强化学习方法。现有的策略转移方法要么通过测量源任务与目标任务之间的相似性来转移知识,要么通过估计源策略在目标任务上的性能来选择最佳源策略。但是,性能估计有时可能不可靠,这可能会导致负迁移。针对这种问题,提出了一种新的策略转移方法,称为随机集成策略迁移(SEPT)。SEPT不是在源策略库中选择一个策略,而是利用源策略集成出教师策略来进行迁移。SEPT把策略迁移转变为选项学习问题以便获得终止概率,用终止概率计算出源策略的概率权重,根据概率权重从策略库中集成出教师策略。然后,通过策略蒸馏的方式从教师策略进行知识迁移。实验结果表明SEPT可以有效地加速强化学习训练,并且在离散和连续空间上都能胜过其他最佳的策略迁移方法。