咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >毫米波MIMO系统接收机算法的并行化设计与GPU实现 收藏
毫米波MIMO系统接收机算法的并行化设计与GPU实现

毫米波MIMO系统接收机算法的并行化设计与GPU实现

作     者:余登高 

作者单位:东南大学 

学位级别:硕士

导师姓名:黄永明

授予年度:2016年

学科分类:0810[工学-信息与通信工程] 08[工学] 

主      题:毫米波MIMO 均衡检测 矩阵求逆 LDPC GPU计算 

摘      要:移动互联网的蓬勃发展,驱动着对新一代移动通信技术的需求,5G是面向2020年以后移动通信需求而发展的新一代移动通信系统,5G系统的核心技术之一就是毫米波技术。毫米波波长短,因此发射和接收模块集成度高,非常适合MIMO架构。然而随着MIMO系统配备的天线数目的增加,MIMO系统的实现复杂度也不断增加,算法并行化成为缓解这种矛盾的重要手段;另一方面,由于GPU在并行计算方面的巨大优势,基于GPU实现的通信并行算法的研究也是当前通信领域的研究热点。本文面向新一代移动通信系统,对毫米波MIMO接收机的算法并行化设计展开研究,论文主要工作和创新点如下:首先,研究了MIMO接收机均衡检测模块的并行化优化设计。提出一种低复杂度的快速并行矩阵求逆方案,该方案基于改进的Givens旋转算法,可以有效地避免Givens旋转过程中的开方运算以及除法运算,从而降低复数矩阵求逆问题的复杂度。相比于传统的矩阵求逆算法,该算法在降低除法复杂度方面有显著改善,尤其相对于经典的SGR算法,提出的复数矩阵求逆方案可以节省的峰值乘法操作达到14.3%,可以节省的峰值除法操作更是接近60%。基于MATLAB的仿真结果表明,对于数百维甚至上千维的大维矩阵,提出的算法方案仍然适用,说明对于大规模MIMO (Massive MIMO)接收机,该算法依然具有实用性。然后,基于混合多核架构平台,对该复数矩阵求逆方案进行了并行化实现。基于CUDA平台的实现结果表明,随着矩阵维数的增加,并行化实现体现的优势越来越明显:当矩阵维数超过500×500时,基于混合多核架构并行实现的CMI算法耗时在102毫秒量级,而基于CPU串行实现的CMI算法耗时在104毫秒量级,此时,并行算法实现能获得超过20x的加速比,吞吐率能达到11gigaflops/s。接着,研究了针对数据包编码的迭代译码方案。TGaj工作组提出的数据包编码方案,是一种新的改进的LDPC编码方案,针对这种包编码的译码研究并不多,本文提出一种基于分层修正最小和算法的迭代译码算法。采用分层修正最小和译码算法对每个LDPC码字译码,然后基于Min-Sum算法计算错误码块的软比特信息,并返回迭代译码,直到达到最大迭代次数或者所有的LDPC码块均译码正确,则译码结束。仿真结果表明,不同调制方式下,经过包校验的迭代译码算法均能取得增益:QPSK调制下,随着码率和码字个数的不同,可以取得0.3~1.0dB的增益;在16-QAM以及64-QAM调制下,随着码率的不同,分别可以取得0.5~0.55dB和0.55~1.1dB的增益。最后,基于GPU并行架构,对该译码方案进行了并行化实现。实现结果表明:基于GPU平台的并行实现相对基于CPU平台的串行实现在运行时间上有很大的优势。当译码迭代次数在30次、码字个数等于10、25以及50时,并行实现相对串行实现的运行时间均能获得4×的加速比;运行时间加速比跟迭代次数呈正相关,而随着码字个数的减少,呈下降的趋势。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分