咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >融合对比预测编码的深度双Q网络 收藏

融合对比预测编码的深度双Q网络

Double Deep Q-Network by Fusing Contrastive Predictive Coding

作     者:刘剑锋 普杰信 孙力帆 LIU Jianfeng;PU Jiexin;SUN Lifan

作者机构:河南科技大学信息工程学院河南洛阳471023 

出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)

年 卷 期:2023年第59卷第6期

页      面:162-170页

核心收录:

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家部委预研基金(61403120207) 河南省高校科技创新人才资助项目(21HASTIT030) 河南省高等学校青年骨干教师资助项目(2020GGJS073) 

主  题:部分可观测马尔可夫决策过程 表示学习 强化学习 对比预测编码 深度双Q网络 

摘      要:在模型未知的部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)下,智能体无法直接获取环境的真实状态,感知的不确定性为学习最优策略带来挑战。为此,提出一种融合对比预测编码表示的深度双Q网络强化学习算法,通过显式地对信念状态建模以获取紧凑、高效的历史编码供策略优化使用。为改善数据利用效率,提出信念回放缓存池的概念,直接存储信念转移对而非观测与动作序列以减少内存占用。此外,设计分段训练策略将表示学习与策略学习解耦来提高训练稳定性。基于Gym-MiniGrid环境设计了POMDP导航任务,实验结果表明,所提出算法能够捕获到与状态相关的语义信息,进而实现POMDP下稳定、高效的策略学习。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分