基于逆向强化学习的虚拟人物行为生成方法
作者机构:沈阳理工大学辽宁沈阳110159
出 版 物:《信息技术与信息化》 (Information Technology and Informatization)
年 卷 期:2023年第6期
页 面:114-117页
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:针对指挥训练系统所面临的科目越来越复杂,所需要协调的人员越来越庞大,而且对场景的逼真程度要求越来越高,需要多方各级指挥员的参与才能进行训练的问题,提出了一种基于逆向强化学习的方法。首先,通过机器学习得到基于专家数据的潜在回报函数;其次,将回报函数作为轨迹生成训练的奖励函数,利用DDPG网络进行强化学习,训练最优轨迹生成网络模型,使其能够综合众多专家的策略部署能力;最后,对提出的方法在SC2LE平台进行验证,通过对比不同回报函数的训练收敛效果与实际生成策略得分能力来证明了算法的有效性。