融合先验知识的强化学习算法研究与实现
作者单位:电子科技大学
学位级别:硕士
导师姓名:陈爱国
授予年度:2023年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:强化学习作为一种解决贯序决策问题的算法框架,在自动驾驶、机器人控制、游戏对抗等诸多热门领域得到了广泛应用,它通过试错来进行策略学习,并在许多现实决策任务中取得了超越人类的成绩。然而,由于奖励稀疏、样本利用率低、环境过拟合等问题,强化学习在某些场景下学习效率低下,研究成果面临落地困难。近年来,越来越多的研究人员尝试将外部先验知识引入强化学习,以帮助智能体获取额外的引导信息并实现高效学习,这也是如今强化学习研究的热点之一。本文则聚焦于演示样本和先验策略两种类型的先验知识,分别提出了一种在强化学习中的融合利用方法,实现了人与智能体之间、智能体与智能体之间的先验知识传递。具体而言,本文的研究工作主要包括以下三个部分。首先,提出了一种融合演示样本的强化学习算法。针对环境奖励稀疏的强化学习任务,本文通过分布匹配的方式建立了智能体与演示样本之间的联系,并结合奖励塑形的方法给予了智能体额外的引导信息,以鼓励智能体的行为向演示靠拢。同时,针对次优样本为策略学习带来的限制,本文引入了最大熵机制,同时设计了演示样本的跳跃机制,有效避免了策略学习收敛于局部最优。其次,提出了一种融合先验策略的强化学习算法。本文将先验策略的策略蒸馏与目标智能体的自我学习进行结合,并利用先验策略帮助目标智能体进行动作选择,使目标智能体在快速学习奖励分布的同时获得了出色的初始性能。此外,本文还在方法中引入了优先经验回放机制,当先验策略在目标环境中的某些状态失效时,可实现策略的快速修正。最后,设计实现了融合先验知识的3D迷宫强化学习系统。本文依托于Unity游戏开发引擎,设计实现了一个可在3D迷宫环境进行实验的强化学习系统,并在系统中对提出的方法进行了部署验证。同时,系统支持研究人员导入先验知识供算法模型使用,也可将训练好的数据作为先验知识导出存储,为研究人员从事相关研究提供了便利的实验环境。