基于混合模仿学习的多智能体追捕决策方法
Multi-agent Pursuit Decision-making Method Based on Hybrid Imitation Learning作者机构:北京航天自动控制研究所北京100854 宇航智能控制技术全国重点实验室北京100854 中船智海创新研究院有限公司北京100094 北京理工大学自动化学院北京100081
出 版 物:《计算机科学》 (Computer Science)
年 卷 期:2025年第52卷第1期
页 面:323-330页
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:针对传统模仿学习方法在处理多样化专家轨迹时的局限性,尤其是难以有效整合质量参差不齐的固定模态专家数据的问题,创新性地融合了多专家轨迹生成对抗模仿学习(Multiple Trajectories Generative Adversarial Imitation Learning, MT-GAIL)方法与时序差分误差行为克隆(Temporal-Difference Error Behavioral Cloning, TD-BC)技术,构建了一种混合模仿学习框架。该框架不仅可以增强模型对复杂多变的专家策略的适应能力,还能够提升模型从低质量数据中提炼有用信息的鲁棒性。框架得到的模型具备直接应用于强化学习的能力,仅需经过细微的调整与优化,即可训练出一个直接可用的、基于专家经验的强化学习模型。在二维动静结合的目标追捕场景中进行了实验验证,该方法展现出良好的性能。结果表明,所提方法可以吸取专家经验,为后续的强化学习训练阶段提供一个起点高、效果佳的初始模型。