基于离线强化学习的研究综述
作者机构:重庆交通大学信息科学与工程学院 天津大学胸科医院 天津大学智能与计算学部
出 版 物:《无线电通信技术》 (Radio Communications Technology)
年 卷 期:2024年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(61602391) 天津市科技计划项目(22JCZDJC00580)
摘 要:离线强化学习作为一种新兴范式,凭借其无需与环境交互即可利用大量离线数据进行策略学习的特性,展现出了很高的应用潜力和价值,特别是在医疗、自动驾驶等高风险领域中具有显著优势。从离线强化学习的基本概念、核心问题、主要方法依次展开,并重点介绍多种缓解其主要问题--分布偏移的策略,包括约束目标策略与行为策略对齐,价值函数约束,模型不确定性量化以及基于模型的离线强化学习方法。讨论了目前离线强化学习的模拟环境以及重要应用场景。