论文题目:数字孪生辅助强化学习的燃气站场巡检任务分配算法
录用期刊:电子信息学报(CCF中文C类)
作者列表:
1) 连远锋 中国天天色天天(北京)人工智能学院 智能科学与技术系教师
2) 田 天 中国天天色天天(北京)人工智能学院 计算机技术专业 硕22
3) 陈晓禾 中国天天色天天(北京)人工智能学院 计算机系教师
4) 董绍华 中国天天色天天(北京)安全与海洋工程学院 安全工程系教师
摘要:
针对燃气站场机器人智能巡检过程中由于突发任务导致的巡检效率下降、任务延迟和能耗增加问题,该文提出基于数字孪生辅助强化学习的燃气站场巡检任务分配算法。首先基于多机器人、差异化任务的执行状况,建立面向能耗、任务延迟的多目标联合优化巡检任务分配模型;其次利用李雅普诺夫理论对时间-能耗耦合下的巡检目标进行解耦,简化多目标联合优化问题;最后通过结合数字孪生技术和PPO(Proximal Policy Optimization)算法,对解耦后的优化目标进行求解来构建多机器人巡检任务分配策略。仿真结果表明,与现有方法相比,所提方法具有较高的任务完成率,有效地提高了多机器人系统的巡检效率。
背景与动机:
当前我国燃气站场安全管控主要是采用人工巡检与监控技术相结合的方式,人工巡检实时性差、巡检效率低,难以发现站场微小泄漏,无法满足智能化、无人化风险管控需求。使用机器人对燃气站场中的液化装置(LNG)、压力容器、管汇等燃气基础设施进行巡检具有适应性强、巡检效率高、安全性好的优势,对燃气站场智能化管理具有重要意义。
设计与实现:
在任务延迟、能耗资源有限和差异化任务的多机器人燃气巡检场景中,考虑到能耗与时间耦合以及模型在真实环境中的适应性,本文研究了数字孪生辅助强化学习的燃气站场巡检任务分配,以解耦能耗时间相关性,提高数字孪生强化学习在实际环境中的应用。具体工作总结如下:(1)构建了一个面向能耗、延迟等多目标的联合优化巡检任务分配模型,考虑多机器人巡检和差异化任务的执行需求,提升了任务分配的效率和实用性。(2)利用李雅普诺夫理论对时间耦合的巡检能耗约束进行解耦,将原问题转化为最小化李雅普诺夫漂移加惩罚项的上界,简化了多目标优化问题。(3)针对物理空间和虚拟空间时间步长不同问题,提出数字孪生辅助的PPO(Proximal Policy Optimization)算法,对解耦后的优化问题进行求解,实现了多机器人巡检任务的高效且稳定分配。在动态巡检任务的燃气站场环境中,探索近似最优的任务分配方法以实现机器人能耗和任务延迟最小化。
图1 整体框架结构图
实验结果及分析:
图2展示了PSO, GA, ACO, DRL, DDQN和DTPPO算法在任务分配中的路径规划结果。可以看出,PSO算法虽然能够较好地实现任务分配,但路线存在较多的交叉和绕行;GA算法通过遗传操作提供了一定程度的路线优化,但在复杂环境下仍有重叠现象;ACO算法表现出较好的路线稳定性和较少的路径交叉,但存在漏检的情况;DRL算法在处理复杂场景时表现出较高的自主性,但仍存在路径冗余;本文提出的算法相较于DDQN,机器人能够高效避免路径交叉与冗余,从而提升了任务完成的效率和稳定性。
图2 机器人Pathfinding数据集巡检路线
本文模型与其他模型的机器人燃气站场巡检路线如图3所示。可以看出,PSO和GA算法巡检的目标点较少,存在漏检的问题,任务资源平衡方面也存在不足;ACO算法能在一定程度上优化任务分配,但在复杂环境下,尤其是任务资源要求较高时,算法表现出较为明显的局部最优解,未能充分挖掘全局最优解的潜力,因此任务分配存在不均衡的情况;DRL算法巡检了更多的目标点,在处理动态任务分配时较为有效,能够根据环境的变化做出调整;本文提出的算法相较于DDQN算法,任务分配的精确度和资源均衡性方面表现优异,能够根据环境变化快速调整任务分配策略,减少资源浪费,并提高系统的整体效率。
图3 机器人燃气站场巡检路线
结论:
本文提出了一种基于数字孪生辅助强化学习的巡检任务分配算法。首先,构建以最小化机器人能耗和任务时延的多目标联合优化巡检任务分配模型。其次,考虑到能耗和时间之间的耦合关系以及电池容量约束,利用李雅普诺夫优化理论对目标函数的约束条件进行解耦,进而简化了多目标优化问题。最后结合数字孪生技术和PPO算法,将李雅普诺夫漂移及惩罚项作为奖励函数,对解耦后的问题进行求解。仿真部分针对不同因素对巡检效率进行了讨论,并验证了本文算法的有效性和扩展性。未来的工作中将考虑将优化算法与李雅普诺夫理论结合改进多机器人任务分配算法。
作者简介:
连远锋,教授。研究方向为图像处理与虚拟现实、机器视觉与机器人、深度学习与数字孪生。