咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度强化学习的综合航电系统安全性优化方法 收藏

基于深度强化学习的综合航电系统安全性优化方法

Integrated avionics system safety optimization method based on deep reinforcement learning

作     者:赵长啸 李道俊 孙亦轩 景鹏 田毅 ZHAO Changxiao;LI Daojun;SUN Yixuan;JING Peng;TIAN Yi

作者机构:中国民航大学安全工程与科学学院天津300300 中国民航大学民航航空器适航审定技术重点实验室天津300300 

出 版 物:《中国安全科学学报》 (China Safety Science Journal)

年 卷 期:2024年第34卷第7期

页      面:123-131页

核心收录:

学科分类:08[工学] 0837[工学-安全科学与工程] 

基  金:国家重点研发计划项目(2021YFB1600601) 天津市高等学校研究生教育改革研究计划项目(TJYG135) 中国民航大学研究生科研创新资助项目(2023YJSKC09015) 

主  题:深度强化学习 综合航电系统 安全性 优化方法 马尔可夫决策过程(MDP) 综合化设计 

摘      要:为解决传统基于人工检查的安全性设计方法难以应对航电系统大规模集成带来的可选驻留方案爆炸问题,构建航电系统分区模型、任务模型以及安全关键等级量化模型,将考虑安全性的综合化设计优化问题模型化为马尔可夫决策过程(MDP)问题,并提出一种基于Actor-Critic框架的柔性动作-评价(SAC)算法的优化方法;为得到SAC算法的参数选择和训练结果之间的相关性,针对算法参数灵敏度开展研究;同时,为验证基于SAC算法的优化方法在优化考虑安全性的综合化设计方面的优越性,以深度确定性策略梯度(DDPG)算法和传统分配算法为对象,开展优化对比试验。结果表明:在最佳的参数组合下,使用的SAC算法收敛后的最大奖励相较于其他参数组合提升近8%,同时,收敛时间缩短近16.6%;相较于DDPG算法和传统分配算法,基于SAC算法的优化方法在相同的参数设置下获得的最大奖励、约束累计违背率、分区均衡风险效果、分区资源利用以及求解时间方面最大提升分别为62%、7464%、8370%、2123%和775%。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分