检索结果-南通市图书馆

计算机工程 2022年第5期48卷 74-81页

作者：厉子凡王浩方宝富合肥工业大学计算机与信息学院合肥230601

多智能体高效协作是多智能体深度强化学习的重要目标,然而多智能体决策系统中存在的环境非平稳、维数灾难等问题使得这一目标难以实现。现有值分解方法可在环境平稳性和智能体拓展性之间取得较好平衡,但忽视了智能体策略网络的重要性,... 详细信息

多智能体高效协作是多智能体深度强化学习的重要目标,然而多智能体决策系统中存在的环境非平稳、维数灾难等问题使得这一目标难以实现。现有值分解方法可在环境平稳性和智能体拓展性之间取得较好平衡,但忽视了智能体策略网络的重要性,并且在学习联合动作值函数时未充分利用经验池中保存的完整历史轨迹。提出一种基于多智能体多步竞争网络的多智能体协作方法,在训练过程中使用智能体网络和价值网络对智能体动作评估和环境状态评估进行解耦,同时针对整条历史轨迹完成多步学习以估计时间差分目标,通过优化近似联合动作值函数的混合网络集中且端到端地训练分散的多智能体协作策略。实验结果表明,该方法在6种场景中的平均胜率均优于基于值分解网络、单调值函数分解、值函数变换分解、反事实多智能体策略梯度的多智能体协作方法,并且具有较快的收敛速度和较好的稳定性。

关键词：多智能体协作深度强化学习值分解多步竞争网络动作值函数

来源：

维普期刊数据库

同方期刊数据库评论

在线全文

学校读者我要写书评

暂无评论

深度强化学习在实时策略游戏中的应用研究

深度强化学习在实时策略游戏中的应用研究

引用

作者：申翔翔北京交通大学

学位级别：硕士

近年来,深度学习不仅促进图像检测、语音识别和自然语言处理等领域的发展,而且使得强化学习领域的研究成果取得新突破。深度强化学习发展以后,在视频小游戏上取得超越人类水平的成绩,“围棋专家”阿尔法狗和阿尔法元也展示出超强的才能... 详细信息

近年来,深度学习不仅促进图像检测、语音识别和自然语言处理等领域的发展,而且使得强化学习领域的研究成果取得新突破。深度强化学习发展以后,在视频小游戏上取得超越人类水平的成绩,“围棋专家”阿尔法狗和阿尔法元也展示出超强的才能并战胜人类围棋专家。然而,深度强化学习在更加复杂的实时策略游戏应用中开始遭遇瓶颈,其面临的主要问题包含两个方面的内容,一方面,智能体自我行为决策中基于值函数迭代的深度强化学习算法中动作值函数不稳定,另一方面,多个智能体之间缺乏合作与竞争。根据以上两个方面的问题,本论文的主要工作分为以下两个部分。(1)提出了指数滑动平均化三重动作值网络算法。本论文对深度强化学习中动作值函数进行剖析,分析了深度动作值网络算法中动作值函数不稳定的特性,根据目前基于深度动作值网络算法进行改进的平均化动作值函数的算法进一步提出指数滑动平均化动作值网络算法。其次,重点分析了深度动作值网络算法与确定性策略梯度算法在深度确定性策略梯度算法中的主要作用,基于深度确定性策略梯度算法中提出了指数滑动平均化三重动作值网络算法,其核心是引入指数滑动平均化的动作值网络,改进了深度确定性策略梯度算法中策略更新时的梯度公式,增强了智能体行为策略的鲁棒性。(2)提出基于自注意力机制的动作值网络模型。在多智能体进行合作和竞争时,学会关注到更有价值的智能体的特性或游戏环境本身的状态,将有利于改善多智能体的行为策略,本论文通过对注意力机制在自然语言处理方面应用的理解与探讨,提出基于自注意力机制的动作值网络模型进而优化多个智能体的行为策略,使得多智能体都能表现出更好的行为策略。应用本论文提出的指数滑动平均化三重动作值网络算法,智能体在多个具有连续动作空间的深度强化学习环境中取得比原算法更高的收益。在既包含合作又包含竞争的游戏环境中,多智能体深度确定性策略梯度算法采用基于自注意力机制的动作值网络模型后也获得了更高的收益。此两种改进的算法应用不仅局限于在模拟环境或游戏中,也将有利于应用在现实生活场景中的深度强化学习智能体的行为策略得到改善,收益得到增加。

关键词：深度强化学习实时策略性游戏深度确定性策略梯度算法指数滑动平均智能体动作值函数动作值网络自注意力机制

来源：

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于差分隐私的企业财务会计数据安全共享方法研究

引用

通化师范学院学报 2023年第4期44卷 88-94页

作者：戴小凤朱卫东安徽审计职业学院工程管理系安徽合肥230601 合肥工业大学合肥工业大学管理学院

针对现有财务会计数据共享中存在开销较大、隐私安全性较低等问题,提出一种基于差分隐私的企业财务会计数据安全共享方法.通过差分隐私技术构建强化学习的形式化模型,在建模过程中引入马尔可夫决策过程,确定会计数据状态,并获得对应最... 详细信息

针对现有财务会计数据共享中存在开销较大、隐私安全性较低等问题,提出一种基于差分隐私的企业财务会计数据安全共享方法.通过差分隐私技术构建强化学习的形式化模型,在建模过程中引入马尔可夫决策过程,确定会计数据状态,并获得对应最优值函数,完成企业财务会计数据的动态隐私发布;在此基础上,设计会计数据协作服务,该数据协作服务由四种网络实体构成,分别为域密钥生成器、层密钥生成器、根密钥生成器和云服务器,防止企业财务会计数据存储时泄露,实现细粒度访问控制和数据写操作.通过区块链构建企业财务会计数据安全共享模型,模型由以太坊区块链、贡献者节点、访问者节点,以及链上激励模块构成,实现企业财务会计数据安全共享.通过三个实验数据集测试方法性能,测试结果表明:设计方法隐私安全性较高,能够保持较小的数据损失,且设计方法可在较低的开销下实现会计数据安全共享.

关键词：差分隐私马尔可夫决策过程企业财务会计数据数据安全共享动作值函数转移概率矩阵

来源：

维普期刊数据库

同方期刊数据库评论

在线全文

学校读者我要写书评

暂无评论

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

在线全文

在线全文

在线全文

请选择保存的检索档案：

请选择收藏分类：

通借通还

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

在线全文

在线全文

在线全文

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：