咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >Direct xPU:一种新型节点间通信优化的分布式异构计算... 收藏

Direct xPU:一种新型节点间通信优化的分布式异构计算架构

Direct xPU: A Novel Distributed Heterogeneous Computing Architecture Optimized for Inter-node Communication Optimization

作     者:李仁刚 王彦伟 郝锐 肖麟阁 杨乐 杨广文 阚宏伟 Li Rengang;Wang Yanwei;Hao Rui;Xiao Linge;Yang Le;Yang Guangwen;Kan Hongwei

作者机构:清华大学计算机科学与技术系北京100084 浪潮(北京)电子信息产业有限公司北京100085 广东浪潮智慧计算技术有限公司广州510623 

出 版 物:《计算机研究与发展》 (Journal of Computer Research and Development)

年 卷 期:2024年第61卷第6期

页      面:1388-1400页

核心收录:

学科分类:08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:广东省重点领域研发计划项目(2021B0101400001)。 

主  题:节点间通信 FPGA GPU RDMA 零拷贝 

摘      要:人工智能大模型应用的爆发式增长,使得难以依靠单一节点、单一类型的算力实现应用的规模部署,分布式异构计算成为主流选择,而节点间通信成为大模型训练或推理过程中的主要瓶颈之一.目前,主要由GPU,FPGA等头部芯片厂商所主导的各种计算架构的节点间通信方案还存在一些问题.一方面,为了追求极致的节点间通信性能,一部分架构选择使用协议简单而可扩展性差的点对点传输方案.另一方面,传统的异构计算引擎(例如GPU)虽然在内存、计算管线等算力要素方面独立于CPU,但在通信要素方面却缺少专属的网络通信设备,需要完全或部分借助于CPU通过PCIe等物理链路来处理异构计算引擎与共享网络通信设备之间的通信.所实现的Direct xPU分布式异构计算架构,使得异构计算引擎在算力要素和通信要素两方面均具有独立的、专属的设备,实现了数据的零拷贝,并进一步消除了节点间通信过程中处理跨芯片传输数据所带来的能耗和延迟.测试结果表明,Direct xPU取得了与追求极致的节点间通信性能的计算架构相当的通信延迟,带宽接近物理通信带宽的上限.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分