具有风险厌恶型决策者的有限阶段马尔可夫决策过程
Finite Horizon Markov Decision Processes for Risk-averse Decision Makers作者机构:北京理工大学管理与经济学院北京100081 西安邮电大学经济与管理学院西安710121
出 版 物:《重庆师范大学学报(自然科学版)》 (Journal of Chongqing Normal University:Natural Science)
年 卷 期:2019年第36卷第5期
页 面:86-91页
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 070105[理学-运筹学与控制论] 0701[理学-数学]
主 题:风险厌恶 悲观准则 动态规划 向后递推算法 最优策略矩阵
摘 要:【目的】在分析了期望最大化准则无法控制方差的局限性的基础上,考虑具有风险厌恶型决策人的有限阶段马尔可夫决策过程,为风险厌恶决策者提供决策方法。【方法】建立了悲观准则下有限阶段马尔可夫决策过程的数学模型,并基于动态规划原理和同向不等号相加的保号性给出了向后递推算法。【结果】得到了每个阶段所有可能状态的最优策略和到阶段结束至少可获得的报酬,并证明所得到的最优策略矩阵满足风险厌恶型决策者的要求。然后,针对连续性策略、成本最小化和风险偏好型决策者等情形下有限阶段马氏过程最优策略的求解进行了一些理论延伸。【结论】给出了一个三阶段马尔可夫过程的算例分析,验证了所提出的模型。