基于自主优先课程学习的深度强化学习算法研究
作者单位:南京大学
学位级别:硕士
导师姓名:陈春林
授予年度:2018年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:本文提出了一种结合自主优先课程学习和覆盖惩罚的深度强化学习新的训练模式。提出的深度课程强化学习算法根据每个状态样本的复杂性自适应地从回放存储中选择合适的样本,充分发挥经验回放的作用。样本复杂性的评价标准包括自主优先级标准以及覆盖惩罚标准。自主优先级标准考虑样本的有效性,反映了时间差分误差与现阶段课程难度之间的关系。覆盖惩罚标准考虑样本的多样性,减少深度强化学习中过拟合的风险。在Atari 2600游戏平台上进行深度课程强化学习算法的实验验证,并与深度Q值网络和优先级经验回放算法进行实验效果对比。实验结果表明在大多数的仿真游戏环境中,本文提出的算法都明显优于深度Q值网络和优先级经验回放算法。更多的实验结果进一步表明本文提出的算法也适用于其他基于经验回放的深度强化学习算法,诸如双值Q网络和分型网络。所有的实验结果都表明,本文提出的深度课程强化学习算法可以明显提高智能体的训练效率和控制鲁棒性。