面向边缘AI计算集群的异构优化方法及混合任务调度算法研究
作者单位:哈尔滨工业大学
学位级别:硕士
导师姓名:刘劼
授予年度:2022年
学科分类:12[管理学] 080904[工学-电磁场与微波技术] 0809[工学-电子科学与技术(可授工学、理学学位)] 08[工学] 0810[工学-信息与通信工程] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术] 0835[工学-软件工程] 081001[工学-通信与信息系统] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着边缘计算的发展,出现了越来越多高算力的边缘AI设备,相比于云计算集群,边缘设备具有低延迟、低能耗、低价格、体积小易部署、异构灵活性高等优点。同时,边缘场景下的任务复杂性也在不断提高,需要多种不同深度学习模型共同完成某项任务,因此边缘设备上通常需要同时部署不同模型,并发推理,由此出现了许多值得研究的问题。本文首先测试了不同轻量级深度学习模型在不同边缘设备上并发推理的性能降级和功率,发现了各种异构的边缘设备对于不同模型的并发适配性和规律性,进而提出了一种整数线性规划方法,在价格预算和边缘卡槽数量的约束下,最大化板卡对具体模型的并发能效收益,优化边缘设备选择及模型部署问题,在具体模型和各种板卡上的优化结果也体现了该种优化方法的有效性,以及在性能和功耗上的可折中性,为边缘异构提供了理论依据,体现了边缘异构的优势。在搭建好边缘集群并部署好各种模型后,为了满足边缘推理的高吞吐和低延迟需求,随之而来的便是异构边缘集群中混合任务的调度问题,为此本文提出了一种基于强化学习的调度算法,使用实际运行时测得的后验结果作为学习样本,根据每次调度中各个任务的性能降级结果自动学习设备间的差异性,达到异构感知的效果,进而推理出当前状态下最优的调度决策,我们通过实验验证了其有效性;在我们的架构中还补充了云端卸载机制,解决边缘推理精度不足的问题,在不同置信度阈值下的延迟增长也反映出了云端卸载的代价之大,要尽量避免任务上云。