基于SIMD-DSP的LU分解算法的优化与实现-南通市图书馆

文献详情 >基于SIMD-DSP的LU分解算法的优化与实现收藏

基于SIMD-DSP的LU分解算法的优化与实现

作者：苏彤

作者单位：西安科技大学

学位级别：硕士

导师姓名：廖晓群;蔺心彦

授予年度：2020年

学科分类：080903[工学-微电子学与固体电子学] 0809[工学-电子科学与技术（可授工学、理学学位）] 08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：LU分解函数 SIMDDSP BWDSP1042

摘要：LU分解运算是密集型运算的经典算法,由于具有着广泛的应用范围和重要的应用价值,一直以来都处于核心地位。但是,当LU分解算法在SIMDSP硬件平台上实现时仍会面临没有充分使用硬件运算单元与数据传输总线,内存访问冲突等问题,这些问题使得算法在硬件平台上的性能无法达到理想水平。由此可见,利用软件优化方法在硬件平台上实现LU分解依然值得研究。本课题基于国产SIMD架构的数字信号处理芯片BWDSP1042,设计具有高精度、高实时性的LU分解算法库。本文首先介绍了 BWDSP1042处理器的内核结构、流水线、内存空间分配与指令系统,深入理解硬件特点是优化与实现LU分解并行算法的前提。其次,阐述了C语言版LU分解函数的设计过程,构建了算法的主体框架与运行环境。最后研究了基于BWDWP1042的汇编版LU分解算法,消除了矩阵乘法运算过程中的非连续访存,充分利用硬件运算资源与数据传输总线,通过软件优化的方式,加快了循环中任务间的通信,减少了因通信带来的访存延时和访存冲突,进一步提升了LU分解算法的性能。本文给出了 LU分解算法研究的详细过程,并与主流高性能DSP芯片TMS320C6678内部函数库的运行周期和运行时间进行对比。在测试用例相对全面的情况下,对C语言版本和汇编版本函数进行测试,确保函数的正确性和可靠性。仿真与实验结果表明,在BWDSP1042平台实现的LU分解函数充分利用了 SIMD架构的特点挖掘算法的并行性,汇编版函数与串行版C函数相比,当矩阵点数为32*32时效率提升了 26.75倍,点数为64*64时效率提升了 34.61倍,点数为128*128时效率提升了 42.95倍。与TMS320C6678相比,当矩阵点数为128*128时,运行时间比接近内核频率比。C版函数与汇编版函数所有测试结果的误差均小于等于10-7数量级,远优于库函数设计指标要求的10-4数量级。该函数满足雷达实时信号处理领域对函数库高稳定、高精度以及高性能的工程需求。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于SIMD-DSP的LU分解算法的优化与实现

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于SIMD-DSP的LU分解算法的优化与实现

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：