咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Trace数据的大规模云集群资源调度模拟系统研究 收藏
基于Trace数据的大规模云集群资源调度模拟系统研究

基于Trace数据的大规模云集群资源调度模拟系统研究

作     者:凌天 

作者单位:杭州电子科技大学 

学位级别:硕士

导师姓名:程雨夏

授予年度:2023年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 0804[工学-仪器科学与技术] 080402[工学-测试计量技术及仪器] 

主      题:云计算 模拟系统 资源调度 性能评估 

摘      要:云集群的资源调度是为应用实例合理地分配集群资源的过程,主要涉及初次调度阶段,重调度阶段以及并行调度,混部调度等优化技术。调度对于业务的性能,可靠性,以及资源利用率都有着重要影响。资源调度的效果需要实验验证,但在线上集群进行实验,极容易导致线上业务崩溃,同时缺乏可重复性。因此,对云集群中的资源调度过程进行模拟仿真,具有重要的现实意义。为了解决这个问题,本文设计并实现了一个大规模云集群资源调度模拟系统。它基于集群Trace数据运行,能够还原和回放线上集群的运行环境。它向用户提供了可配置的初次调度算法和重调度算法,用户能以可重复的方式获得算法在集群上的应用效果。本文的主要工作内容包括:(1)提出了大规模集群资源调度模拟系统Lothar的架构和实现。它基于真实集群的Trace数据运行,包括事件生成模块,调度模块,重调度模块,核心管理模块,性能评估及可视化模块。它可以还原和回放集群一段时间的连续运行,模拟运行时的调度请求到达,实例和物理机的启动,退出,更新等。通过提供调度算法和重调度算法,可以得到算法在对应集群上的应用效果。(2)模拟系统的关键模块优化。系统以事件驱动,使用组件注册和轮询方式,加速了模拟过程并保证事件按序发生。实现时间差分模拟方案,模拟的成本更低且准确度较高。提供调度放置和重调度迁移两阶段的算法接口,算法接口设计为高度可扩展的分布式架构。优化重调度迁移模拟的精确度,加入迁移延时,迁移资源限制等,并复现集群中广泛存在的实例调度与实例迁移过程的冲突失败。实现集群状态的实时可视化,并提供关键性能指标。(3)大规模集群资源调度实验。初次调度实验中还原回放Google的线上生产集群,对两级调度(kube-scheduler和DCM)与Borg调度进行对比分析。重调度实验中还原回放蚂蚁金服的线上生产集群,对Dot-Product算法,DCM算法的重调度效果进行对比分析。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分