沈阳自动化所在基于深度强化学习的车间智能调度方面研究取得新进展
基于深度强化学习的智能调度和重构系统架构
训练过程中目标值的下降曲线
近日,中国科学院沈阳自动化研究所在车间智能调度方面研究取得新进展,基于深度强化学习方法实现了动态订单下可重构车间对动态生产调度和车间重构的实时优化和智能决策,研究成果发表在International Journal of Production Research。
由于车间调度问题大多属于NP难问题,传统元启发式算法只能在多项式时间内求得近优解。对大规模问题,元启发式算法的求解时间难以满足动态生产环境下实时决策的需求。另外,小批量定制化的生产模式,要求车间满足动态可重构。如何对可重构车间的生产调度和车间重构进行实时优化和动态协同,是研究的难点。
科研人员基于深度强化学习方法,将生产调度和车间重构的决策过程建模为马尔科夫决策过程,建立了调度和重构系统的深度强化学习模型,设计了奖励函数、状态空间和行为空间等。训练后,决策智能体在求解质量和求解时间上取得了比2种元启发式算法(迭代贪婪算法和遗传算法)更优的结果。智能体对单个工件的决策时间仅为1.47 ms,可用于动态生产环境下可重构车间的实时优化和智能决策。
该研究得到了国家自然科学基金和辽宁省自然科学基金项目的支持。(智能产线与系统研究室)
附件下载: