激光雷达点云语义分割研究
作者单位:北京邮电大学
学位级别:硕士
导师姓名:焦继超
授予年度:2022年
学科分类:080904[工学-电磁场与微波技术] 0810[工学-信息与通信工程] 0809[工学-电子科学与技术(可授工学、理学学位)] 08[工学] 081105[工学-导航、制导与控制] 081001[工学-通信与信息系统] 081002[工学-信号与信息处理] 0825[工学-航空宇航科学与技术] 0811[工学-控制科学与工程]
摘 要:伴随着自动驾驶技术和人工智能的发展,现有自动驾驶系统对实时感知物体信息的需求越发迫切。三维激光雷达因其高精度、高频率和视野完整等特点成为了自动驾驶感知领域最广泛应用的传感器之一。经过前期研究,本文发现现有嵌入式设备的图形处理器(Graphic Processing Unit,GPU)算力有一定限制且数据通信技术无法支撑云端服务器实时处理大量激光雷达点云数据,而采用球形投影预处理能有效将神经网络对SemanticKITTI开源点云数据的处理速度提升至10帧/秒以上。但现有的引入该预处理放方案的点云语义分割系统例如SqueezeSeg和RangeNet++直接移植了针对真实图像的二维卷积神经网络对点云投影图像进行特征提取,缺乏基于点云投影图像特点的针对性设计,其语义分割性能仍有提升空间;系统缺乏对稀疏机械激光雷达点云、固态激光雷达点云进行处理的改进设计,导致网络处理各类激光雷达点云的泛化能力不足;没有解决系统提取小尺度目标特征能力不足的问题。针对上述问题,本文深入研究了图像通道信息处理、小尺度目标识别、稀疏特征提取等关键技术,构建出了针对三类激光雷达的三种点云语义分割框架,旨在提升针对不同类型数据的点云语义分割系统的处理精度和精度。本文主要完成的工作及取得的创新点如下所述:1.针对点云投影图像的通道张量信息类型与真实图像区别较大的问题,本文设计了一个用于特征转换的点卷积扩展子模块(Pointwise Convolutional Expansion Module,PCEM)并将其嵌入到语义分割网络的各个基础模块,在降低网络参数量的同时也使得系统更适应于处理投影图像数据。本文使用SemanticKITTI开源点云数据集转换生成的投影图像进行实验,结果表明系统在RTX3090平台上的处理速度达到了 19.4帧/秒,系统精度即平均交互比(mIoU)达到了49.3%,与RangeNet++相比处理精度仅下降了2.9%而处理速度提升了58.3%。2.针对现有系统对小尺度物体语义分割精度较低的问题,本文设计了一种多尺度空间注意力机制模块(Multi-scale Spatial Attention Module,MSAM),以调整拟合原数据在投影之后多尺度目标的局部特征权重区域。本文在SemanticKITTI上与其他算法进行了对比实验,结果表明本系统处理精度mIoU为51.8%,系统处理速度达到了 17.3帧/秒,与SqueezeSegV3相比处理精度下降了 4.1%而处理速度提升了 183.3%。相比于原有系统,引入MSAM将系统对小尺度目标的分割精度提升了 16.9%。3.针对系统对于稀疏点云的特征提取能力不足以及对小尺度目标的特征提取能力不足的问题,本文提出了一个坐标融合模块(Coordinate Fusion Module,CFM)将中间特征与原始坐标信息融合强化局部特征,并去除了基础模块中的特征转化卷积层以减少坐标信息融合次数。本文在稀疏化处理后的SemanticKITTI数据集中与其他算法进行了对比实验,结果表明本系统精度mIoU达到了 44.1%,相比于RangeNet++和SqueezeSegV3分别提升了11.5%和2.9%。4.针对固态激光雷达在一个场景序列中生成的每帧点云数据量固定的特性,本文提出了一种自适应分辨率球形投影方案对投影图像进行扩展及压缩,以保留点云的完整信息。本文在PandaSet固态雷达点云开源数据集中进行了对比实验,结果显示本文提出的固态激光雷达点云语义分割系统的精度mIoU达到了 16.9%,相比于RangeNet++和SqueezeSegV3分别提升了 11.8%和5.6%,与固定分辨率投影的处理方案相比提升了 12%。