基于深度强化学习的双置换表优化算法研究
Two-level transposition table optimization algorithm based on deep reinforcement learning作者机构:东北大学研究生院河北秦皇岛066004 东北大学秦皇岛分校计算机与通信工程学院河北秦皇岛066004
出 版 物:《重庆理工大学学报(自然科学)》 (Journal of Chongqing University of Technology:Natural Science)
年 卷 期:2024年第38卷第5期
页 面:145-153页
学科分类:08[工学] 081104[工学-模式识别与智能系统] 0811[工学-控制科学与工程]
基 金:河北省自然科学基金面上项目(F2023501006)。
主 题:深度强化学习 置换表 计算机博弈 AlphaGo 蒙特卡洛树
摘 要:基于深度强化学习的计算机博弈程序(如AlphaGo)已在围棋上战胜了人类世界冠军。这些算法利用可学习的价值神经网络和策略神经网络指导蒙特卡洛树的探索。为提高蒙特卡洛树的搜索性能,已提出多种改进方法,其中置换表已被证明可提高搜索效率。在此基础上,提出一种新的基于置换表的方法——基于深度强化学习的双置换表优化算法。该方法使用不同的替换策略管理双层置换表,并将六子棋的两步落子解耦为2个独立的神经网络。这不仅减小了动作空间规模,也更易于神经网络训练。以六子棋为例进行的实验结果表明,在有限的计算资源下,该方法能显著提升棋局哈希命中率和程序棋力水平。