咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >数据中心的RDMA网络拥塞控制算法研究 收藏
数据中心的RDMA网络拥塞控制算法研究

数据中心的RDMA网络拥塞控制算法研究

作     者:魏浩然 

作者单位:北京邮电大学 

学位级别:硕士

导师姓名:张娇

授予年度:2022年

学科分类:08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:RDMA 拥塞控制 高速网络 数据中心网络 

摘      要:随着远程直接内存访问(Remote Direct Memory Access,RDMA)这一网络技术在数据中心内的大规模部署,分布式应用能够在高吞吐(200Gbps)和超低时延(低于10us每跳)的高性能网络下,以很低的CPU开销来传输数据。然而,随着分布式应用规模的扩大,商用网卡使用的DCQCN拥塞控制算法已经无法有效缓解的大量Incast负载造成的拥塞。尽管利用基于优先级的流量控制(Priority-based Flow Control,PFC)的机制尽管可以避免拥塞造成的丢包,但是PFC可能引发拥塞扩散,队头阻塞等问题。因此,需要新的拥塞控制算法来实现高速网络低延迟、高带宽和高可靠性的目标。(1)提出了一种软件实现的拥塞控制机制。本文设计了 SECC这一拥塞控制机制。SECC利用RDMA语义的特点,通过零拷贝的分片和组装,实现了对上层应用的透明的、低开销的速率控制。实验结果表明,在不更换网卡的情况下,SECC能有效增强网卡对Incast流量的承载能力,在Incast负载任务下,开启SECC后可以分别降低了18.8%的平均完成时间和79.5%的尾部完成时间。(2)本研究提出了一种硬件综合利用RTT和ECN的硬件拥塞控制算法。本文设计了一种可以部署在最新的可编程硬件网卡(例如Mellanox ConnectX6-DX)中,无需对交换机进行修改的拥塞控制算法RECC。具体来说,RECC结合了 RTT的精确测量和ECN的快速拥塞响应,在发送端快速、精确地调整发送速率。此外,RECC有效识别间歇性Incast造成的拥塞,避免低负载期间的过度增速的情况,从而防止由于训练流量产生的开关Incast而导致错误的速率决策。本研究在商用RoCEv2网卡上实现RECC算法,实验结果表明,在无损网络的条件下,模拟分布式训练的流量,相比DCQCN,RECC最多降低了 34.8%的流完成时间和95%的PAUSE帧的持续时间。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分