检索结果-南通市图书馆

基于值分解的多目标多智能体深度强化学习方法

在线全文

学校读者我要写书评

暂无评论

计算机工程 2023年第1期49卷 31-40页

作者：宋健王子磊中国科学技术大学自动化系合肥230027

多智能体深度强化学习方法可应用于真实世界中需要多方协作的场景,是强化学习领域内的研究热点。在多目标多智能体合作场景中,各智能体之间具有复杂的合作与竞争并存的混合关系,在这些场景中应用多智能体强化学习方法时,其性能取决于该... 详细信息

多智能体深度强化学习方法可应用于真实世界中需要多方协作的场景,是强化学习领域内的研究热点。在多目标多智能体合作场景中,各智能体之间具有复杂的合作与竞争并存的混合关系,在这些场景中应用多智能体强化学习方法时,其性能取决于该方法是否能够充分地衡量各智能体之间的关系、区分合作和竞争动作,同时也需要解决高维数据的处理以及算法效率等应用难点。针对多目标多智能体合作场景,在QMIX模型的基础上提出一种基于目标的值分解深度强化学习方法,并使用注意力机制衡量智能体之间的群体影响力,利用智能体的目标信息实现量两阶段的值分解,提升对复杂智能体关系的刻画能力,从而提高强化学习方法在多目标多智能体合作场景中的性能。实验结果表明,相比QMIX模型,该方法在星际争霸2微观操控平台上的得分与其持平,在棋盘游戏中得分平均高出4.9分,在多粒子运动环境merge和cross中得分分别平均高出25分和280.4分,且相较于主流深度强化学习方法也具有更高的得分与更好的性能表现。

关键词：深度强化学习多智能体多目标值分解注意力机制

在线全文

学校读者我要写书评

暂无评论

基于隐式通信的值分解多智能体强化学习

计算机科学与探索 2024年

作者：邓亚男王秋红李俊杰顾晶晶南京航空航天大学计算机科学与技术学院

在多智能体系统中，智能体通常只能观察到部分状态信息，导致每个智能体在做决策时缺乏对其他智能体行为和环境动态的完整理解，进而增加了协作的难度。虽然基于值函数分解的多智能体强化学习方法对解决局部可观测性问题有一定的优势，... 详细信息

在多智能体系统中，智能体通常只能观察到部分状态信息，导致每个智能体在做决策时缺乏对其他智能体行为和环境动态的完整理解，进而增加了协作的难度。虽然基于值函数分解的多智能体强化学习方法对解决局部可观测性问题有一定的优势，但由于状态-动作空间维度高、模型结构复杂等问题，多智能体系统中仍然存在着协作不确定性的影响，从而导致奖励分配不公平的问题。针对此问题提出了一种基于隐式通信的值分解多智能体强化学习方法（Value Function Factorization for Multi-Agent Reinforcement Learning based on Implicit Communication，VFRL-IC），通过挖掘智能体之间的局部关系，缓解环境不确定性问题带来的影响：首先，提出隐式通信框架，在训练阶段使智能体共享局部观测信息以训练局部策略；其次，基于局部观测信息构建全局影响的评估模型，求解智能体间影响值；最后，设计了一种类多头注意力机制的网络结构，融合智能体间影响值，求解包含全局信息的局部动作值模型。在星际争霸环境中进行实验验证，结果表明，VFRL-IC在各场景中的平均成功率优于基线算法15%～40%，效率提高18%。

关键词：值分解多智能体强化学习部分可观测性不确定性隐式通信

在线全文

同方期刊数据库

学校读者我要写书评

暂无评论

基于状态估计的值分解方法

计算机科学 2023年第8期50卷 202-208页

作者：熊丽琴曹雷陈希亮赖俊陆军工程大学指挥控制工程学院南京210007

值分解方法是一种流行的解决合作多智能体深度强化学习问题的方法,其核心是基于IGM(Individual-Global-Max)原则将联合值函数表示为个体值函数的某种组合。该方法中,智能体仅根据基于局部观察的个体值函数选择动作,这导致智能体无法有... 详细信息

值分解方法是一种流行的解决合作多智能体深度强化学习问题的方法,其核心是基于IGM(Individual-Global-Max)原则将联合值函数表示为个体值函数的某种组合。该方法中,智能体仅根据基于局部观察的个体值函数选择动作,这导致智能体无法有效地利用全局状态信息学习策略。尽管许多值分解算法已经采用了注意力机制、超网络等手段来提取全局状态的特征以加权个体值函数,从而间接地利用全局信息来指导智能体训练,但这种利用非常有限。在复杂环境中,智能体仍旧难以学到有效策略,学习效率较差。为提高智能体策略学习能力,提出了一种基于状态估计的多智能体深度强化学习值分解方法——SE-VF(Value Factorization based on State Estimation),该方法引入状态估计网络来提取全局状态的特征并得到评估全局状态优劣的状态值,然后将状态损失值作为损失函数的一部分来更新智能体网络的参数,从而优化智能体的策略选择过程。实验结果表明,在星际争霸2微观管理任务测试平台的多个场景中,SE-VF的表现比QMIX等基线更好。

关键词：状态估计值分解多智能体强化学习深度强化学习

基于多智能体值分解深度强化学习的多智能体协作算法研究

在线全文

学校读者我要写书评

暂无评论

基于多智能体值分解深度强化学习的多智能体协作算法研究

作者：厉子凡合肥工业大学

学位级别：硕士

多智能体协作一直是人工智能的研究热点,有助于解决人类社会的许多问题。由于近些年来深度强化学习展现出的惊人决策能力,利用其解决多智能体协作问题成为热门,并诞生了多智能体深度强化学习这一研究方向。值分解是多智能体深度强化学... 详细信息

多智能体协作一直是人工智能的研究热点,有助于解决人类社会的许多问题。由于近些年来深度强化学习展现出的惊人决策能力,利用其解决多智能体协作问题成为热门,并诞生了多智能体深度强化学习这一研究方向。值分解是多智能体深度强化学习的主流方法,可以在环境平稳性和智能体拓展性之间取得平衡。但现有的一些值分解式方法没有充分利用历史轨迹进行学习,也忽视了智能体策略网络的重要性。因此,本文针对基于多智能体值分解深度强化学习设计高效的多智能体协作算法这一任务,主要进行了以下工作:(1)本文提出了一种基于竞争网络结构的多智能体值分解深度强化学习算法——多智能体多步竞争网络(Multi-Agent Multi-Step Dueling Network,MMDN),将环境状态估计和动作评估解耦,在训练阶段利用全局状态信息学习状态值,利用观察信息学习优势值,以此提高个体动作值函数的表达能力。利用多步时间差分方法通过联合动作值函数计算时间差分目标端到端地训练智能体分散式策略,并引入-回报权衡估计偏差和多步采样导致的方差。在一组具有挑战性的多智能体协作场景中的实验结果表明了MMDN的有效性。(2)本文还提出了一种基于注意力网络的多智能体值分解深度强化学习算法——多智能体协作意愿网络(Multi-Agent Collaborative Willingness Network,MACWN),对智能体网络的建模进一步加以改进,将智能体协作的动机拆分为行为效用和协作意愿,行为效用表示智能体自我行动的价值估计,主要依赖于智能体自身的状态,协作意愿表示智能体与同伴智能体协作的意愿,主要依赖于周围同伴智能体的状态,行为效用和协作意愿共同决定智能体的策略输出,因此不同的协作意愿可能会改变智能体最终执行的动作。MACWN同样利用引入-回报的多步时间差分方法通过联合动作值函数计算时间差分目标端到端地训练智能体分散式的策略。实验结果表明了MACWN的性能优于MMDN。

关键词：深度强化学习多智能体协作值分解竞争网络结构注意力机制

基于值分解与近端策略优化的多智能体协作研究

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于值分解与近端策略优化的多智能体协作研究

作者：马燕豪南京邮电大学

学位级别：硕士

随着科技的进步,单个智能体解决问题的能力已经不能满足人们的需求,多智能体系统成为一个重要的研究领域。多个智能体协作协调可以完成更加复杂的任务,具有重要的研究意义。多智能体协作是多智能体系统的重要研究内容,深度强化学习的发... 详细信息

随着科技的进步,单个智能体解决问题的能力已经不能满足人们的需求,多智能体系统成为一个重要的研究领域。多个智能体协作协调可以完成更加复杂的任务,具有重要的研究意义。多智能体协作是多智能体系统的重要研究内容,深度强化学习的发展,为多智能体协作的研究提供了新方法,出现了许多相关研究成果。然而,现有策略梯度法、值函数法等方法在解决多智能体协作最优策略学习的信度分配问题时,仍然存在着不足,影响了多智能体协作能力的提升。为了更好地解决多智能体协作的复杂信度分配问题,并适应更大规模的多智能体协作场景,本文在集中训练和分布执行框架下,开展了基于值分解与近端策略优化的多智能体协作研究,主要工作如下:(1)针对现有策略梯度法难以进行多智能体协作的信度分配,提出了一种基于优势个体最大原则的值分解与近端策略优化的多智能体协作策略学习模型和算法。为每个智能体分配一个个体评论家,用来估计智能体的个体状态值和优势值,通过混合网络整合为团队的联合状态动作值,通过训练,智能体可以得到不同的个体状态动作值,隐式地做到信度分配。多智能体围捕任务仿真实验表明,所提出的模型和算法可以有效提高多智能体间的协作能力。(2)针对复杂信度分配,算法难以获得最优策略问题,提出了一种基于加权值分解与近端策略优化的多智能体协作策略学习模型和算法。通过学习一个不受网络结构限制的目标评论家提高对真实联合状态动作值估计的准确性,使用目标评论家对可值分解的评论家进行评判,通过权重设计重点关注被低估的联合动作,在解决复杂信度分配问题的同时,避免错过最优动作。复杂协作策略多智能体围捕任务仿真实验表明,所提出的学习模型和算法可以使多智能体有效获得更优协作策略,具有更广的适用场景。(3)为了提高模型和算法对智能体数量较多的协作场景的适应能力,构建了一种基于多头注意力机制的复杂输入信息处理模型。使用多个不同的注意力头分析来自不同智能体的信息,针对任务给智能体分配不同的权重进行信息整合,关注更重要的信息,降低数据维度。增加数量规模的多智能体围捕任务仿真实验表明,本文引入注意力机制的复杂输入信息处理模型能有效提高较多数量的智能体间的协作能力,使多智能体协作策略学习模型和算法能适应更大规模的多智能体系统。

关键词：多智能体协作深度强化学习信度分配值分解近端策略优化注意力机制

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于强化学习的无人机集群对抗策略推演仿真

兵工学报 2023年第S02期44卷 126-134页

作者：曹子建孙泽龙闫国闯傅妍芳杨博李秦洁雷凯麟高领航西安工业大学计算机科学与工程学院陕西西安710021 西安工业大学兵器科学与技术学院陕西西安710021 中国兵器工业试验测试研究院陕西华阴714200

无人机集群在军事战争、公共安全和商业领域的应用越来越广泛,但在复杂多变的对抗环境下,制定高效的策略仍然是一个挑战。为使无人机集群能够自主学习和适应对抗环境的变化,提高任务执行的效率和成功率,提出一种基于值分解的多智能体强... 详细信息

无人机集群在军事战争、公共安全和商业领域的应用越来越广泛,但在复杂多变的对抗环境下,制定高效的策略仍然是一个挑战。为使无人机集群能够自主学习和适应对抗环境的变化,提高任务执行的效率和成功率,提出一种基于值分解的多智能体强化学习算法框架,在仿真平台模拟不同对抗场景下的无人机集群行为,通过强化学习算法,培养无人机集群在不同情境下做出决策的能力,以实现任务目标的最优化。讨论不同强化学习算法在无人机集群对抗策略中的应用和性能比较。实验结果表明,该算法在多种集群对抗环境下均表现出良好的效果,展现出其在军事无人机集群对抗中的有力支持。

关键词：无人机集群对抗策略强化学习值分解

在线全文

学校读者我要写书评

暂无评论

一种基于多步竞争网络的多智能体协作方法

计算机工程 2022年第5期48卷 74-81页

作者：厉子凡王浩方宝富合肥工业大学计算机与信息学院合肥230601

多智能体高效协作是多智能体深度强化学习的重要目标,然而多智能体决策系统中存在的环境非平稳、维数灾难等问题使得这一目标难以实现。现有值分解方法可在环境平稳性和智能体拓展性之间取得较好平衡,但忽视了智能体策略网络的重要性,... 详细信息

多智能体高效协作是多智能体深度强化学习的重要目标,然而多智能体决策系统中存在的环境非平稳、维数灾难等问题使得这一目标难以实现。现有值分解方法可在环境平稳性和智能体拓展性之间取得较好平衡,但忽视了智能体策略网络的重要性,并且在学习联合动作值函数时未充分利用经验池中保存的完整历史轨迹。提出一种基于多智能体多步竞争网络的多智能体协作方法,在训练过程中使用智能体网络和价值网络对智能体动作评估和环境状态评估进行解耦,同时针对整条历史轨迹完成多步学习以估计时间差分目标,通过优化近似联合动作值函数的混合网络集中且端到端地训练分散的多智能体协作策略。实验结果表明,该方法在6种场景中的平均胜率均优于基于值分解网络、单调值函数分解、值函数变换分解、反事实多智能体策略梯度的多智能体协作方法,并且具有较快的收敛速度和较好的稳定性。

关键词：多智能体协作深度强化学习值分解多步竞争网络动作值函数

面向博弈对抗的多智能体强化学习建模与迁移技术

在线全文

学校读者我要写书评

暂无评论

指挥与控制学报 2024年第2期10卷 226-231页

作者：李渊刘运韬徐新海万珂嘉军事科学院北京100190

多智能体博弈对抗问题涉及智能体之间的协作配合,传统基于博弈论等方法的解决方案并不适用于复杂场景的博弈对抗问题。基于强化学习的多智能体协同训练机制是近年来的研究热点。针对中国电子科技集团发布的多智能体博弈对抗问题,设计基... 详细信息

多智能体博弈对抗问题涉及智能体之间的协作配合,传统基于博弈论等方法的解决方案并不适用于复杂场景的博弈对抗问题。基于强化学习的多智能体协同训练机制是近年来的研究热点。针对中国电子科技集团发布的多智能体博弈对抗问题,设计基于值分解的多智能体深度强化学习方法,为每个智能体独立构建网络模型,通过引入混合网络连接各个智能体,训练时以混合网络指导各智能体网络更新,执行时各智能体网络独立运行,实现集中式学习、分散式执行的训练模式。针对同构异构场景,设计一种高效的迁移训练技术,提升多智能体强化学习方法在不同场景下的快速训练效率。对同构和异构博弈对抗问题分别进行测试,实验结果表明基于值分解的多智能体强化学习方法和迁移技术,能够有效提升智能体的协作行为以及训练效率。

关键词：多智能体对抗博弈深度强化学习迁移学习值分解混合网络训练效率

在线全文

学校读者我要写书评

暂无评论

一种基于一致性的多智能体Q学习算法

控制工程 2024年第7期31卷 1169-1177页

作者：崔浩岩张震赵德京廖登宇青岛大学自动化学院山东青岛266071 山东省工业控制技术重点实验室山东青岛266071

针对多智能体系统中智能体通信能力受限和多智能体强化学习中联合动作空间维数灾难问题,提出一种基于一致性的多智能体Q学习(multi-agent Q-learning based on consensus,MAQC)算法。该算法采用集中训练-分散执行框架。在集中训练阶段,M... 详细信息

针对多智能体系统中智能体通信能力受限和多智能体强化学习中联合动作空间维数灾难问题,提出一种基于一致性的多智能体Q学习(multi-agent Q-learning based on consensus,MAQC)算法。该算法采用集中训练-分散执行框架。在集中训练阶段,MAQC算法采用值分解方法缓解联合动作空间维数灾难问题。此外,每个智能体将自己感知到的局部状态和接收到的邻居的局部状态发送给所有邻居,最终使网络中的智能体获得所有智能体的全局状态。智能体所需的时间差分信息由一致性算法获得,智能体只需向邻居发送时间差分信息的分量信息。在执行阶段,每个智能体只需根据与自己动作有关的Q值函数来选择动作。结果表明,MAQC算法能够收敛到最优联合策略。

关键词：多智能体强化学习智能体通信一致性 Q学习值分解

同方期刊数据库