咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于鲲鹏和昇腾异构平台的单节点HPL-AI设计与优化 收藏

基于鲲鹏和昇腾异构平台的单节点HPL-AI设计与优化

Design and Optimization of Single-Node HPL-AI Benchmark for a Hetero⁃geneous Platform Composed of Kunpeng and Ascend

作     者:吴昊天 任长青 陆璐 徐鹏翔 杨凯 WU Haotian;REN Changqing;LU Lu;XU Pengxiang;YANG Kai

作者机构:华南理工大学计算机科学与工程学院广东广州510006 郑州信大先进技术研究院河南郑州450001 鹏城国家实验室广东深圳518000 

出 版 物:《华南理工大学学报(自然科学版)》 (Journal of South China University of Technology(Natural Science Edition))

年 卷 期:2024年第52卷第2期

页      面:13-22页

核心收录:

学科分类:08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:广东省自然科学基金资助项目(2021A1515011798) 河南省网络空间态势感知重点实验室开放课题(HNTS2022017) 

主  题:鲲鹏 昇腾 异构平台 基准测试 高性能计算 混合精度 

摘      要:鉴于低精度浮点运算拥有更快的运算速度,越来越多的高性能应用采用混合精度方案进行加速,而同样采用该方案来加速的AI(人工智能)大模型也受到广泛关注。最近,HPL-AI(High Performance LINPACK for Accelerator Introspection)基准测试被提出,用于评估高性能系统的混合精度运算性能。针对该基准测试,本研究在鲲鹏和昇腾异构平台上设计并优化了单节点HPL-AI基准测试的实现。其主要通过循环任务分配的策略将任务均匀地分配给AI处理器以平衡AI处理器的负载;通过带间隔值的任务分配策略提高数据传输的连续性来减少CPU和AI处理器之间的数据传输时间;在不影响计算精度的情况下,通过取消数据缩放的策略来减少CPU侧的计算量。最终实验结果表明:当间隔值为8时,HPL-AI基准测试的混合精度浮点运算速度最快;同时,取消数据缩放不会对HPL-AI基准测试的结果精度产生影响;在鲲鹏和昇腾异构平台上,与非优化的HPL-AI基准测试方法相比,本研究提出的优化策略使混合精度浮点运算速度提升了29%左右,为单节点HPL-AI基准测试的进一步优化和部署多节点HPL-AI基准测试奠定了坚实的基础。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分