检索结果-南通市图书馆

在线全文

学校读者我要写书评

暂无评论

基于值函数分解方法的多智能体协同策略研究

基于值函数分解方法的多智能体协同策略研究

作者：纪龙南京信息工程大学

学位级别：硕士

近几年,强化学习的发展非常迅速,尤其在Alpha Go击败围棋高手李世石之后,更是引起了众多学者的关注和研究。随着研究的不断深入,强化学习被逐渐应用到复杂的多智能体协同问题上,这类研究被称为多智能体强化学习。多智能体强化学习已经... 详细信息

近几年,强化学习的发展非常迅速,尤其在Alpha Go击败围棋高手李世石之后,更是引起了众多学者的关注和研究。随着研究的不断深入,强化学习被逐渐应用到复杂的多智能体协同问题上,这类研究被称为多智能体强化学习。多智能体强化学习已经使许多领域取得突破性进展,例如,军事推演、快递分拣、竞技体育、自动驾驶、推荐系统等。因此,无论是从理论价值还是工程应用的角度来看,对多智能体强化学习的研究都具有极其重要的意义。尽管多智能体强化学习已经取得了卓越的成功,但是仍然存在着智能体信息过载、初期盲目探索等一系列问题。本文以值函数分解方法为理论基础,围绕这些问题展开研究:(1)针对当前采用值函数分解方法的多智能体系统在通信时会受外界信息轰炸、初期无效探索等问题,提出一种基于注意力机制的多智能体值函数分解方法(Multi-Agent Value Function Decomposition based on Attention Mechanism,MAVAM)。通过引入注意力机制,增强智能体之间对彼此影响力的关注;并改进-贪婪策略为理性-贪婪策略,减少智能体的盲目探索,增加经验回放池的有效样本。仿真结果表明,本文所提出的算法有效降低信息过载以及训练初期的无效探索,在星际争霸多智能体挑战模拟环境中的收敛速度和最终平均胜率都达到最优。(2)针对环境中智能体数量和动作空间随时间变化而变化的问题,提出一种基于监听通知器和即兴组队的多智能体值函数分解方法(Listener-Noticer and Adhoc Team based Multi-Agent Value Function Decomposition,MALN-AT),借助监听通知器实现智能体的即兴组队。当智能体退出或“死亡”时,团队中其他智能体能够接收到监听通知器的广播,优化局部观测信息,并迅速进行调整;当新的回合开始时,曾经“死亡”的智能体也能更合理地选择当前最优动作。实验结果显示,算法在“寻找宝藏”模拟环境中准确地输出联合动作值,指导智能体在未固定环境中有效地协同工作。(3)从实际的工程应用角度出发,将多智能体协同问题具体到视频推荐系统的多场景协同优化上。结合值函数分解方法MAVAM训练出视频推荐策略模型,仿真结果表明,基于MAVAM的推荐策略在各项推荐指标上表现优异,并且有效避免子场景独立推荐形成的马太效应。(4)针对多智能体协同的视频推荐系统对真实数据的需求,基于现有的软件框架,设计并搭建出一个实时大数据平台。平台能够与真实用户进行交互,并且具备采集、传输以及处理海量用户行为数据的能力,处理后的数据可作为视频推荐系统的实时数据来源。

关键词：多智能体系统强化学习值函数分解注意力机制推荐系统

基于值函数分解的多智能体深度强化学习围捕算法研究

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于值函数分解的多智能体深度强化学习围捕算法研究

作者：高玉钊军事科学院

学位级别：硕士

近年来强化学习方法飞速发展,已在游戏、自动驾驶、机器人控制等领域取得许多成果。基于值函数分解的多智能体深度强化学习(Multi-Agent Reinforcement Learning Based on Value function Decomposition,VDMARL)是一类解决多智能体合作... 详细信息

近年来强化学习方法飞速发展,已在游戏、自动驾驶、机器人控制等领域取得许多成果。基于值函数分解的多智能体深度强化学习(Multi-Agent Reinforcement Learning Based on Value function Decomposition,VDMARL)是一类解决多智能体合作问题的方法,具有解决环境非平稳性、缓解奖励贡献分配问题的优点。但受网络结构限制、集中训练、多智能体环境复杂等问题影响,VDMARL方法的可扩展性和收敛性较差。本文主要以多智能体围捕这一典型合作任务为实验场景,以提高VDMARL方法的可扩展性和收敛性为目标进行研究。本文主要贡献如下:(1)为提高VDMARL方法的可扩展性,主要对非定型场景下观测数据处理和值分解方法进行研究。其中非定型场景为智能体数量变化的场景。针对非定型场景中,智能体观测数据维度变化导致全连接神经网络无法直接处理的问题,本文利用注意力网络可处理变长输入数据的特点,提出了基于历史信息的注意力观测网络,根据自身状态和对每个实体的观测计算注意力融合特征。该网络可将维度变化观测数据处理为固定维度特征向量,同时在计算注意力时增加使用历史信息计算查询向量,提高了注意力计算效果。针对非定型场景中个体动作值数量变化导致联合动作值计算不准确问题,本文提出了一种参数共享的注意力自加权网络。将联合动作值设为个体动作值的加权和。注意力自加权网络根据局部观测和全局状态计算个体动作值权重。权重经绝对值处理保证该分解方式满足IGM条件。避免了对个体动作值数据进行补齐,提高了非定型场景下计算联合动作值的准确性。使用上述基于历史信息的注意力观测网络和注意力自加权网络进行实验。结果表明,上述方法有更好的扩展性,在非定型场景中优于现有方法。(2)为提高VDMARL方法的收敛性,借鉴世界模型方法思想,对缓解环境部分可观测问题和奖励稀疏问题进行研究。针对环境部分可观测问题,本文提出了一种历史信息编码模块。编码模块使用循环神经网络记录历史信息,并学习推断全局状态。该模块采用监督学习方式单独训练,可减少强化学习阶段智能体网络参数,同时解决了循环神经网络隐变量初始化问题,提高了算法收敛速度。针对环境奖励稀疏问题,本文提出了预测模型,使用神经网络学习环境状态转移模型。模型根据全局状态和联合动作预测下一时刻全局状态、奖励和局部观测,对经验数据进行扩充。智能体可使用扩充数据进行训练,使智能体在与环境交互较少的情况下实现收敛。实验表明,历史信息编码模块可有效加快算法收敛速度,世界模型可以较高准确率预测状态和奖励。在对比实验中验证了算法收敛性的提升。(3)本文基于ROS、Gazebo和多粒子环境搭建了多无人车围捕仿真系统。主要由多粒子环境训练模块和Gazebo仿真模块组成。通过对无人车运动学模型进行建模、建立离散动作到连续动作的映射、设计无人车运动学模型下目标反向逃逸策略和算法,重新设置了多粒子训练环境。仿真模块使用Gazebo和Python算法实现。Gazebo根据无人车动作进行仿真,反馈下一时刻状态。Python控制节点根据Gazebo反馈的无人车信息计算每个智能体的观测数据,使用观测数据和智能体策略输出无人车动作。智能体首先在多粒子环境中进行训练,之后在仿真环境验证训练得到的策略。使用该系统对前述章节所提方法进行验证,在多粒子环境和Gazebo环境中无人车均实现了围捕,证明了算法在复杂环境中的有效性。

关键词：多智能体深度强化学习值函数分解可扩展性注意力机制收敛性世界模型多无人车围捕

基于加权值函数分解的多智能体分层强化学习技能发现方法

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

计算机应用研究 2023年第9期40卷 2743-2748,2754页

作者：邹启杰李文雪高兵赵锡玲张汝波大连大学信息工程学院辽宁大连116622 大连民族大学机电工程学院辽宁大连116600

针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化... 详细信息

针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化学习相结合,在上层采用加权值函数分解的方法解决智能体在训练过程中容易忽略最优策略而选择次优策略的问题;其次,在下层采用独立Q学习算法使其能够在多智能体环境中分散式地处理高维复杂的任务;最后,在底层独立Q学习的基础上引入技能发现策略,使智能体之间相互学习互补的技能。分别在简易团队运动和星际争霸Ⅱ两个仿真实验平台上对该算法与多智能体强化学习算法和分层强化学习算法进行对比,实验表明,该算法在奖励回报以及双方对抗胜率等性能指标上都有所提高,提升了整个多智能体系统的决策能力和收敛速度,验证了算法的可行性。

关键词：多智能体强化学习分层强化学习集中训练分散执行值函数分解技能发现

在线全文

学校读者我要写书评

暂无评论

基于值分解的多智能体深度强化学习综述

计算机科学 2022年第9期49卷 172-182页

作者：熊丽琴曹雷赖俊陈希亮陆军工程大学指挥控制工程学院南京210007

基于值分解的多智能体深度强化学习是众多多智能体深度强化学习算法中的一类,也是多智能体深度强化学习领域的一个研究热点。它利用某种约束将多智能体系统的联合动作值函数分解为个体动作值函数的某种特定组合,能够有效解决多智能体系... 详细信息

基于值分解的多智能体深度强化学习是众多多智能体深度强化学习算法中的一类,也是多智能体深度强化学习领域的一个研究热点。它利用某种约束将多智能体系统的联合动作值函数分解为个体动作值函数的某种特定组合,能够有效解决多智能体系统中的环境非稳定性和动作空间指数爆炸等问题。文中首先说明了进行值函数分解的原因;其次,介绍了多智能体深度强化学习的基本理论;接着根据是否引入其他机制以及引入机制的不同将基于值分解的多智能体深度强化学习算法分为3类:简单因子分解型、基于IGM(个体-全局-最大)原则型以及基于注意力机制型;然后按分类重点介绍了几种典型算法并对算法的优缺点进行对比分析;最后简要阐述了所提算法的应用和发展前景。

关键词：值函数分解多智能体深度强化学习注意力机制 IGM原则

在线全文

学校读者我要写书评

暂无评论

多智能体深度强化学习的图像特征分类方法

计算机工程与应用 2024年第7期60卷 222-228页

作者：张泽崴张建勋邹航李林南海重庆理工大学计算机科学与工程学院重庆400054

为解决在图像特征识别分类等机器学习任务中,存在输入图像数据复杂度过高且与部分数据与特征无关的问题,提出了一种多智能体深度强化学习的图像特征分类方法。将图像特征分类任务转化为一个部分可观测的马尔可夫决策过程。通过使用多个... 详细信息

为解决在图像特征识别分类等机器学习任务中,存在输入图像数据复杂度过高且与部分数据与特征无关的问题,提出了一种多智能体深度强化学习的图像特征分类方法。将图像特征分类任务转化为一个部分可观测的马尔可夫决策过程。通过使用多个移动的同构智能体去收集部分图像信息,并研究智能体如何形成对图像的局部理解并采取行动,以及如何从局部观察的图像中提取相关特征并分类,以此降低数据复杂性和过滤掉不相关数据。通过改进的值函数分解方法训练智能体策略网络,对环境的全局回报按照每个智能体的贡献进行拆分,解决智能体的信度分配问题。该方法在MNIST手写数字数据集和NWPU-RESISC45遥感图像数据集上进行了验证,相比基线算法能够学习到更加有效的联合策略,分类过程拥有更好的稳定性,同时精确率也有提升。

关键词：多智能体图像特征分类深度强化学习值函数分解

基于深度强化学习的多智能体攻防对抗策略研究

在线全文

学校读者我要写书评

暂无评论

基于深度强化学习的多智能体攻防对抗策略研究

作者：张泽崴重庆理工大学

学位级别：硕士

多智能体系统是指由多个与环境交互的智能体组成的一个整体系统,智能体之间相互作用,通过信息交换和协调行动来达成共同的目标或解决共同的问题。深度强化学习将强化学习与深度神经网络结合在一起,大大提升了强化学习算法的特征提取能... 详细信息

多智能体系统是指由多个与环境交互的智能体组成的一个整体系统,智能体之间相互作用,通过信息交换和协调行动来达成共同的目标或解决共同的问题。深度强化学习将强化学习与深度神经网络结合在一起,大大提升了强化学习算法的特征提取能力和表达能力,加强了智能体对环境的感知以及适应能力,能够解决更复杂的决策问题。深度强化学习技术也成为了多智能体系统决策的主流方法。在多智能体对抗博弈环境中,智能体之间的动作和策略选择会相互影响,每个智能体都需要综合考虑自身的行动和回报以及其他智能体的行为,由于环境的不平稳性,使得经验回放池存放大量低效率样本,降低了智能体的学习效率。在复杂多智能体决策任务中,不同阶段会有不同的任务目标,也提高了智能体策略学习的难度。上述问题严重影响了深度强化学习算法在多智能体环境下的性能表现。目前多智能体训练环境大都基于游戏平台验证算法的有效性,或针对特定任务下的模拟仿真,通用的强化学习训练环境还比较少,因此构建一个能够快速设定任务环境,自定义智能体功能的多智能体训练环境也是一个亟待解决的问题。针对上述问题,本文回顾了多智能体强化学习的历史发展,并结合了现有工作进行研究。本文的主要研究内容主要有以下三个部分:(1)针对多智能体环境下经验回放池样本效率低下的问题,提出了多层次经验回放池方法。该算法对经验回放池的填充和采样过程进行改进,首先改进了经验回放池更新机制,增加相似样本过滤环节,其次为每一个样本加入优先级权重以及适应当前状态的样本筛选,以提高采样效率,最终建立稳定的经验回放池,加快强化学习的收敛速度并提高算法性能。(2)针对复杂多智能体任务中的多目标问题,提出了观测信息权衡的多智能体值分解方法。算法在现有值分解网络下使用注意力机制让智能体策略网络更关注对当前任务目标更关键的信息,让智能体适应更复杂的训练环境,提高了算法的收敛速度。(3)为开发能够快速实现任务设计以及智能体设计的多智能体强化学习训练环境,本文以无人集群对抗作为背景,使用Unity引擎下的ML-Agents开源框架设计并实现了多智能体对抗博弈仿真训练环境平台。完成了训练环境可视化,环境设计,智能体行为约束等功能,同时在该环境下完成了本文提出的多智能体强化学习算法的实验验证,并证明了算法的可行性与先进性。

关键词：多智能体强化学习经验回放注意力机制值函数分解

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

非全知环境下的多智能体深度强化学习研究

非全知环境下的多智能体深度强化学习研究

作者：臧嵘太原理工大学

学位级别：硕士

智能体通过与环境交互,利用强化学习优化策略以实现回报最大化或完成特定任务。将强化学习与深度学习结合形成深度强化学习,它不仅具备强大的特征提取能力和表达能力以感知智能体属性信息和环境信息,而且具备强大的探索能力以适应环境... 详细信息

智能体通过与环境交互,利用强化学习优化策略以实现回报最大化或完成特定任务。将强化学习与深度学习结合形成深度强化学习,它不仅具备强大的特征提取能力和表达能力以感知智能体属性信息和环境信息,而且具备强大的探索能力以适应环境的动态变化,在多个复杂问题中展现出良好的性能。尤其在多智能体协同决策任务中,多智能体深度强化学习已然成为研究热点,在无人机编队协同、交通枢纽控制和智能物流等多种领域被广泛应用。因此,多智能体深度强化学习具有重要的理论研究和实际应用价值。实际应用系统中,单个智能体通常仅具备局部观测能力,即环境非全知多智能体系统。在完成协作要求高的任务时,智能体间密切配合才能实现团队利益的最大化,但在环境非全知的条件下,每个智能体对于复杂环境的认知有限,需要通信协同。因此,如何通过智能体间有效通信增强智能体感知环境的能力,切实提升决策质量,是多智能体系统研究的一个重要内容。基于此,本文对非全知环境下多智能体协同决策过程中智能体的通信策略学习进行了研究,针对通信过程中消息的有效识别和处理以及通信资源优化两方面提出了两种多智能体强化学习方法,具体研究内容包括:(1)针对通信过程中消息冗余和存在噪音的问题,提出一种基于注意力消息共享的多智能体强化学习方法AMSAC。具体而言,首先,基于多智能体演员-评论家架构,建立智能体消息共享空间,智能体对共享空间进行消息读取和写入操作,为全局环境信息感知提供支撑;其次,在消息共享网络中建立注意力机制,识别重要信息并进行处理,提升多智能体系统的消息处理性能;最后,在集中式评论家网络中,充分利用全局状态和动作信息,采用时间差分优势策略梯度对智能体执行动作的价值进行合理评估。在多智能体协同对抗环境中进行实验,结果显示AMSAC在四个不同场景下具备优于基线算法的性能。(2)鉴于多智能体值函数分解方法在解决非平稳性和扩展性问题的良好性能,针对其在分散式执行过程中存在的不协调问题,提出了一种基于信息论优化的多智能体强化学习方法BESQ。BESQ以信息论优化技术为基础,基于多智能体值函数分解架构设计了两种通信消息正则化优化器,进而在智能体间构建了通信资源优化机制,解决值函数分解方法在分散执行过程中缺乏协调的问题。具体而言,首先,为增强智能体通信消息的表达能力,建立最大化智能体消息与动作选择之间互信息熵的正则化优化器,减少其他智能体动作值函数的不确定性;同时,为优化智能体通信消息的简洁性,建立最小化智能体消息熵的正则化优化器,使智能体通信的消息包含影响决策的重要信息;最后,基于多智能体值函数分解方法Qatten实现上述的通信资源优化机制,将值函数分解和通信学习方法有机结合。在多智能体协同对抗环境中进行实验,结果表明BESQ在四个不同场景下具备优于基线算法的性能。

关键词：多智能体系统深度强化学习策略梯度值函数分解注意力机制信息论优化

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

多机器人追捕问题的研究

多机器人追捕问题的研究

作者：蓝天翔哈尔滨工业大学

学位级别：硕士

多机器人追捕问题是研究机器人之间协调和协作的最理想的平台。将强化学习算法应用到追捕问题当中可以使多机器人系统主动的去探索环境，适应环境，从而提高自身的性能和稳定性，而直接将标准的强化学习算法直接应用于多机器人系统会使... 详细信息

多机器人追捕问题是研究机器人之间协调和协作的最理想的平台。将强化学习算法应用到追捕问题当中可以使多机器人系统主动的去探索环境，适应环境，从而提高自身的性能和稳定性，而直接将标准的强化学习算法直接应用于多机器人系统会使得系统的状态空间随机器人数量成指数倍增长，从而导致算法收敛速度缓慢，难以在实际中应用。对此本文以降低系统状态空间的大小，提高算法的收敛速度为目的，进行了如下研究：首先，介绍了强化学习算法的基本框架和它的数学模型，并列举了常用的强化学习算法及其算法流程。简单描述了多机器人追捕问题及其状态抽象、动作抽象和回报函数的定义，并考虑到传统状态抽象法中存在状态重复的问题，提出了动态ID状态抽象法来降低系统状态空间的大小，并与传统的状态抽象法在使用标准Q学习算法的基础上进行比较。其次，介绍了分层强化学习的基本原理，采用分层强化学习中的状态空间分解法来将原状态空间分为多个部分，即采用OPTION-学习算法使最优策略的求解过程分散到每个子空间上，从而降低策略空间的数量，加快了算法的收敛速度，并在采用动态ID状态抽象的基础上与标准强化学习算法进行了比较。最后，本文采用值函数分解来改进了OPTION-学习算法，将OPTION-算法中的子任务的状态值函数分解为两个部分，使得其中重复的部分可以重复调用，降低了算法对同一状态的访问次数，从而加快了收敛速度。并与OPTION-学习算法在用动态ID状态抽象的基础上进行比较。

关键词：多机器人追捕分层强化学习 OPTION-Q算法值函数分解

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于强化学习的多智能体协作策略研究与应用

基于强化学习的多智能体协作策略研究与应用

作者：陈学智西安工业大学

学位级别：硕士

随着人工智能的不断发展,深度强化学习已在单智能体领域取得显著的成果。然而,将其扩展至多智能体环境时,将会面临一系列新的问题,如环境的不稳定性,智能体间通讯效率低下,奖励难以合理分配等问题,这些问题将严重影响智能体之间的协作... 详细信息

随着人工智能的不断发展,深度强化学习已在单智能体领域取得显著的成果。然而,将其扩展至多智能体环境时,将会面临一系列新的问题,如环境的不稳定性,智能体间通讯效率低下,奖励难以合理分配等问题,这些问题将严重影响智能体之间的协作效率。因此在多智能体环境中,如何让智能体相互协作完成指定任务,其在现实生活中具有广泛的应用价值。针对上述问题,本文基于强化学习方法,在多智能体协作环境中展开研究,主要工作如下:1、针对多智能体协作环境中的局部可观问题,提出了一种基于循环神经网络的多智能体强化学习算法。该算法采用双向循环神经网络来执行Actor网络,通过网络中保存的过去环境观测信息和智能体动作信息,尽可能地增加智能体在决策时可以参考的信息,以提高其策略的有效性,减轻局部可观所带来的影响。同时加入差异奖励分配机制,以此明确各智能体对任务完成的贡献程度,鼓励智能体选择更为合适的动作输出,训练出正确的行为策略。在仿真协作任务环境与搭建的无源定位任务环境中进行了对比实验。实验结果验证了所提方法能够在任务环境复杂时,更为有效的提升算法的性能表现。2、针对多智能体环境中的信用分配问题,提出了一种基于值分解的多智能体强化学习算法。该算法采用一个值分解的集中式Critic网络来计算策略梯度,并以此更新策略网络,采用这种结构的Critic网络可以明确各智能体对系统奖励的贡献程度,并且减轻维数爆炸所带来的影响,提高算法的训练效率。在仿真任务环境中进行了对比实验,实验结果表明,所提算法在任务完成度与训练效率上均有提升。3、针对如今主流的多智能体强化学习训练框架“集中训练分布执行”所存在的问题:在训练阶段,依据全部智能体的观测数据进行训练以生成策略,但在执行阶段,每个智能体能够获取的仅仅是其局部观测,导致算法的性能表现不佳。尤其在协作任务环境中,这个问题更为凸显,据此提出了基于共享经验的通信机制。通过开辟出一定大小的存储空间,作为多智能体之间的共享经验池。并在训练与执行阶段,均允许智能体对其进行基于显式通信的并行读写操作,使智能体可以推断出整体任务环境,同时提高智能体间的协作效率。最终在仿真任务环境中对比证明了该方法的优越性。

关键词：多智能体系统强化学习协作控制循环神经网络值函数分解