报酬无界的连续时间折扣马氏决策规划
Continuous Time Markov Decision Processes with Unbounded Rewards under the Discounted Criterion作者机构:云南大学昆明650091 昆明工学院昆明650093
出 版 物:《应用概率统计》 (Chinese Journal of Applied Probability and Statistics)
年 卷 期:1997年第13卷第1期
页 面:1-10页
核心收录:
学科分类:02[经济学] 0202[经济学-应用经济学] 020208[经济学-统计学] 07[理学] 0714[理学-统计学(可授理学、经济学学位)] 070103[理学-概率论与数理统计] 0701[理学-数学]
基 金:云南省应用基础研究基金
摘 要:本文讨论报酬函数无界,转移速率族一致有界,状态空间和行动集均可数的连续时间折扣马氏决策规划(CTMDP).文中引入了一类新的无界报酬函数,并在一新的马氏策略类中,证明了有界报酬下成立的所有结果;讨论了最优策略的结构,得到了该模型策略为最优的一个充要条件.