咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于SIMD-DSP的LU分解算法的优化与实现 收藏
基于SIMD-DSP的LU分解算法的优化与实现

基于SIMD-DSP的LU分解算法的优化与实现

作     者:苏彤 

作者单位:西安科技大学 

学位级别:硕士

导师姓名:廖晓群;蔺心彦

授予年度:2020年

学科分类:080903[工学-微电子学与固体电子学] 0809[工学-电子科学与技术(可授工学、理学学位)] 08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:LU分解函数 SIMDDSP BWDSP1042 

摘      要:LU分解运算是密集型运算的经典算法,由于具有着广泛的应用范围和重要的应用价值,一直以来都处于核心地位。但是,当LU分解算法在SIMDSP硬件平台上实现时仍会面临没有充分使用硬件运算单元与数据传输总线,内存访问冲突等问题,这些问题使得算法在硬件平台上的性能无法达到理想水平。由此可见,利用软件优化方法在硬件平台上实现LU分解依然值得研究。本课题基于国产SIMD架构的数字信号处理芯片BWDSP1042,设计具有高精度、高实时性的LU分解算法库。本文首先介绍了 BWDSP1042处理器的内核结构、流水线、内存空间分配与指令系统,深入理解硬件特点是优化与实现LU分解并行算法的前提。其次,阐述了C语言版LU分解函数的设计过程,构建了算法的主体框架与运行环境。最后研究了基于BWDWP1042的汇编版LU分解算法,消除了矩阵乘法运算过程中的非连续访存,充分利用硬件运算资源与数据传输总线,通过软件优化的方式,加快了循环中任务间的通信,减少了因通信带来的访存延时和访存冲突,进一步提升了LU分解算法的性能。本文给出了 LU分解算法研究的详细过程,并与主流高性能DSP芯片TMS320C6678内部函数库的运行周期和运行时间进行对比。在测试用例相对全面的情况下,对C语言版本和汇编版本函数进行测试,确保函数的正确性和可靠性。仿真与实验结果表明,在BWDSP1042平台实现的LU分解函数充分利用了 SIMD架构的特点挖掘算法的并行性,汇编版函数与串行版C函数相比,当矩阵点数为32*32时效率提升了 26.75倍,点数为64*64时效率提升了 34.61倍,点数为128*128时效率提升了 42.95倍。与TMS320C6678相比,当矩阵点数为128*128时,运行时间比接近内核频率比。C版函数与汇编版函数所有测试结果的误差均小于等于10-7数量级,远优于库函数设计指标要求的10-4数量级。该函数满足雷达实时信号处理领域对函数库高稳定、高精度以及高性能的工程需求。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分