咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向随机博弈的群体行为演化动力学建模与分析 收藏
面向随机博弈的群体行为演化动力学建模与分析

面向随机博弈的群体行为演化动力学建模与分析

作     者:袁铮 

作者单位:云南财经大学 

学位级别:硕士

导师姓名:初晨

授予年度:2023年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 081104[工学-模式识别与智能系统] 08[工学] 070105[理学-运筹学与控制论] 0835[工学-软件工程] 0701[理学-数学] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:随机博弈 Q学习 群体行为演化 对近似 动力学模型 

摘      要:合作行为广泛地存在于各层次的生命系统中,并在推动物种进化和促进人类社会发展等方面扮演着至关重要的作用。理解合作行为如何在自私个体间涌现一直是一个重要且具有挑战性的问题。过去大量的研究成果为现实世界中普遍存在的合作难题提供了有效的解决办法,但这些研究往往假设收益矩阵在智能体的博弈交互过程中是固定不变的,这种假设是对个体真实交互场景的过度简化,忽略了智能体交互环境的时变性,特别是智能体的行为所导致的环境变化。经济学中著名的公地悲剧就是一个典型的例子,牧民们过度的放牧行为会导致公共草场的退化,使得牧民们在接下来的日子里,面临资源匮乏的问题,而适度的放牧则有利于牧民们对草场资源的可持续利用。在这种智能体的行为与环境之间存在相互影响的场景下,群体行为将呈现怎样的演化动力学特征成为了一个热点问题。随机博弈模型能够刻画这种智能体的行为与环境状态之间的相互依赖性,成为了学者们研究动态环境下群体行为演化的重要模型框架。本文利用统计物理学中的对近似方法对随机博弈中群体行为的演化动力学进行了建模,并基于蒙特卡洛方法开展仿真实验,从而对群体随机博弈的演化与均衡进行分析。本文的研究内容分为以下两部分:第一部分是多智能体随机博弈模型的提出与群体行为演化动力学模型的构建。本文根据真实世界中个体的行为决策与环境之间的关系,提出了一个多智能体随机博弈模型。在这个群体博弈模型中,群体的结构对应一个完全图,每个智能体占据图上的一个节点,每两个智能体都由一条边所连接,每条连边都与一个具有对称状态转移规则的双人随机博弈模型相关联。在每个时间步的交互中,每个智能体都根据自己的策略选择一个动作来与他所有的邻居进行博弈,智能体通过Q学习算法进行策略更新,每条边所关联的随机博弈模型的状态转移由其连接的一对智能体的联合动作和对应的当前状态共同驱动。基于这个多智能体随机博弈模型,本文对群体行为的演化动力学进行建模。本文具体分析了动力学建模中常采用的平均场理论在随机博弈场景下的不适用性,巧妙地使用了对近似方法进行动力学建模,实现对不同智能体的不同数据分布的演化的追踪。本文分别推导出能够描述群体环境状态的演化以及各状态下Q值向量对的条件概率分布的演化的动力学方程,并得到一个能够描述对的概率分布的演化的偏微分方程,通过该动力学模型,便能够对随机博弈中群体行为的演化以及环境状态的演变进行准确的预测。第二部分是动力学模型的实验验证及群体随机博弈的演化与均衡分析。为了验证本文构建的动力学模型的预测能力,并揭示群体在随机博弈中的行为演化特征以及内在机理,本文采用蒙特卡洛方法进行了一系列基于多主体的仿真实验。本文验证了动力学模型在不同的博弈模型设计、初始条件、状态转移规则、群体规模大小以及算法参数下的适用性,也通过实验揭示这些不同的因素对群体行为演化所造成的影响。本文的研究发现,在某些条件下,即使两个博弈单独都不支持合作行为的涌现,但这两个博弈之间的转移却能够显著地促进合作行为演化,这意味着短视的强化学习智能体也能在不断变化的环境中学会合作。本文提出的基于对近似方法的Q学习动力学模型是统计物理学方法在强化学习动力学建模中的一个应用,揭示了统计物理与多智能体强化学习之间的联系。本文的对近似建模方法的关键在于如何求解对的概率分布以及该分布随时间的演化,该方法可进一步地应用于建模更多复杂交互场景下的群体行为演化动力学,也将给相关的动力学建模工作带来启发。通过一系列的实验结果,本研究发现状态转移机制在促进群体合作行为演化方面的重要作用,从而为全球气候变暖和公共资源管理等现实问题的解决提供理论指导。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分