咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >结合逆向强化学习与强化学习的晶圆批处理设备调度方法 收藏

结合逆向强化学习与强化学习的晶圆批处理设备调度方法

Wafer batch device scheduling method combining reverse reinforcement learning and reinforcement learning

作     者:王卓君 张朋 张洁 WANG Zhuojun;ZHANG Peng;ZHANG Jie

作者机构:东华大学机械工程学院上海201620 东华大学人工智能研究院上海201620 

出 版 物:《计算机集成制造系统》 (Computer Integrated Manufacturing Systems)

年 卷 期:2023年第29卷第11期

页      面:3738-3749页

核心收录:

学科分类:08[工学] 080202[工学-机械电子工程] 0802[工学-机械工程] 

基  金:国家自然科学基金资助项目(52005099) 中央高校基本科研业务费专项资金资助项目(223202100044)。 

主  题:晶圆批处理调度 并行批处理机 动态调度 逆向强化学习 强化学习 生产周期 重入加工 

摘      要:针对晶圆批处理设备调度问题,以最小化生产周期为优化目标,考虑晶圆动态到达、重入加工与不兼容性约束等特点,提出了结合逆向强化学习与强化学习(combine Inverse Reinforcement Learning and Reinforcement Learning,IRL-RL)的晶圆批处理设备调度优化方法。根据批处理设备的加工特性,将问题分解为组批和批次指派两个子问题;由于子问题内部复杂的关联特性使晶圆批处理设备调度内部机理不明,且全局奖励函数设计困难,引入逆向强化学习指导奖励函数的设计;针对晶圆lot的重入加工特性,设计期望流动时间与剩余等待时间关键状态变量;批次指派智能体兼顾考虑任务的紧急程度与工艺类型切换带来的差异生产准备时间进行综合决策,满足批处理设备工艺类型的不兼容性约束;通过设计奖励函数关键参数的非线性特征,解释晶圆lot剩余加工层数与期望流动时间之间的复杂流变关系。24组标准算例的实验数据表明,IRL-RL算法的优化结果与计算效率优于一般强化学习算法和较优规则等方法;经企业实例数据验证,晶圆的生产周期缩短了15%。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分