咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于离线强化学习的研究综述 收藏

基于离线强化学习的研究综述

作     者:陈锶奇 耿婕 汪云飞 余伟驰 赵佳宁 王仕超 

作者机构:重庆交通大学信息科学与工程学院 天津大学胸科医院 天津大学智能与计算学部 

出 版 物:《无线电通信技术》 (Radio Communications Technology)

年 卷 期:2024年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金(61602391) 天津市科技计划项目(22JCZDJC00580) 

主  题:强化学习 离线强化学习 自动决策 外推误差 

摘      要:离线强化学习作为一种新兴范式,凭借其无需与环境交互即可利用大量离线数据进行策略学习的特性,展现出了很高的应用潜力和价值,特别是在医疗、自动驾驶等高风险领域中具有显著优势。从离线强化学习的基本概念、核心问题、主要方法依次展开,并重点介绍多种缓解其主要问题--分布偏移的策略,包括约束目标策略与行为策略对齐,价值函数约束,模型不确定性量化以及基于模型的离线强化学习方法。讨论了目前离线强化学习的模拟环境以及重要应用场景。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分