基于场景预分割的实时点云语义分割算法研究
作者单位:杭州电子科技大学
学位级别:硕士
导师姓名:张继勇
授予年度:2023年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
摘 要:三维场景理解是计算机视觉和机器学习领域的一个重要研究方向,它旨在利用三维传感器数据和深度学习算法使计算机拥有和人类一样感知和理解真实世界的能力,是计算机与真实世界实现交互的基础。通常情况下,场景理解可解释为提取并分析几何场景中的语义信息,即对三维场景进行语义分割。针对该任务,目前国内外主流方案分为两类,一类关注于对整体场景进行端到端的语义分割,另一类则致力于将实时重建与语义分割同步处理。本文结合国内外研究现状,针对应用于室内场景的重建与语义分割同步处理的实时语义分割任务,从框架搭建入手,并对框架中涉及到的场景主平面检测问题及点云聚类分割问题进行相关研究,具体研究内容如下所示:(1)提出了基于场景几何预分割的实时语义分割框架,致力于以物体为单位进行语义信息的提取,以解决上述两种主流方案对场景中物体边缘语义信息提取效果不佳的问题。本文随重建进程实时保持对室内场景主平面信息的检测,以获取当前场景中的点云物体,并对其进行几何上的聚类分割以保证物体及物体集合间互相独立,待其重建完毕后再对其进行语义信息的提取,以提高对物体边缘的语义信息提取效果。在公开数据集上的实验验证了本文方法的有效性。(2)针对点云场景主平面提取任务提出了离线及实时两种解决方案。离线主平面检测方案以整体点云场景作为输入,通过超体素分割降低计算量,并对超体素分割结果进行聚类,随后经由随机一致性采样算法来提取出聚类结果中属于主平面的部分。实时主平面检测方案为:随RGB-D序列的输入对每一帧深度图进行平面信息检测,再针对墙面及地面提出不同的约束方法以从平面信息中提取相应信息,并保持毫秒级别的速率,以满足实时重建系统的运行效率要求。(3)提出一种基于多视图模拟的点云聚类算法,在应用主平面检测算法后,将当前场景中的主平面信息去除以得到点云物体。依据当前帧相机姿态设定多个虚拟相机视角以渲染当前场景中的点云物体的投影图及该视角下的深度图像。随后,针对每个视角的投影图像进行超像素分割及聚类以捕获点云投影的区域,并通过深度图像进行坐标变换以获取点云物体的聚类结果。在公开数据集上的实验验证了该算法能够极大地减少点云聚类操作所需的计算量,在保证与点云欧式聚类算法精度一致的同时,实现了毫秒级别的运行效率。