咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >HPN:阿里云大模型训练网络架构 收藏

HPN:阿里云大模型训练网络架构

作     者:钱坤 翟恩南 操佳敏 

作者机构:杭州阿里云飞天信息技术有限公司 

出 版 物:《中兴通讯技术》 (ZTE Technology Journal)

年 卷 期:2025年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主  题:大模型训练 网络架构 数据中心网络 

摘      要:介绍了阿里云用于大型语言模型(LLM)训练的数据中心网络架构高性能网络(HPN)。HPN通过双上联、多轨、双平面的网络架构设计,避免了单链路故障带来的严重连通性影响,并且避免了哈希极化的产生。实验表明,HPN将LLM训练的端到端性能提升超过14.9%。HPN已在阿里的生产环境中部署了超过1年。

读者评论 与其他读者分享你的观点