咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于VIT的车道线检测算法研究 收藏
基于VIT的车道线检测算法研究

基于VIT的车道线检测算法研究

作     者:王洪来 

作者单位:吉林大学 

学位级别:硕士

导师姓名:张家晨

授予年度:2024年

学科分类:08[工学] 082304[工学-载运工具运用工程] 080203[工学-机械设计及理论] 080204[工学-车辆工程] 0802[工学-机械工程] 0823[工学-交通运输工程] 

主      题:车道线检测 Transformer 特征提取 时序图像检测 

摘      要:车道线是指在道路上用于分隔车道、引导车辆行驶方向的标线。而车道线检测作为计算机视觉中一项重要技术,广泛应用于自动驾驶技术中的多个重要模块。 随着深度学习技术的蓬勃发展,车道线检测任务已取得阶段性的成果。然而,在应对一些具有挑战性的场景时,现有的车道线检测模型仍然存在诸多困难和局限性。首先,通用的深度学习模型通常在大规模的通用数据集上预训练得到,将其作为骨干网络学习到的特征表示并不完全适用于车道线检测这一特定任务。其次,车道线具有独特的几何和视觉特征,其检测任务需要充分考虑并准确提取车道线之间的空间关系以及图像中的全局上下文信息。此外,相较于多帧图像,基于单帧图像的车道线检测模型忽略了连续帧车道图像中隐含的强关联性,没有充分利用连续帧对车道线检测的互补作用。然而,多帧图像检测往往会使模型计算复杂度显著提高,这阻碍了时序车道线检测的发展。 因此,车道线检测领域仍然需要提出新的方法以克服上述困难。近年来,Transformer模型在自然语言处理领域大放异彩,其解决长距离依赖问题的能力在视觉领域中同样适用。受其启发,为了更好地应对车道线检测任务中的挑战性场景,本文基于视觉Transformer(Vision Transformer,VIT)技术,在单帧与多帧图像场景下分别提出两种车道线检测方法,并在实验中对二者的性能进行了验证。本文主要贡献如下: (1)针对通用的深度学习模型用于车道线检测任务时表达能力不足的问题,本文提出一种创新性的全维度动态非局部融合特征提取网络(Omni-Dimensional Dynamic Non-Local Feature Fusion Network,ODNL-Net),代替通用的深度学习模型对图像进行特征提取,使模型提取到的特征更适用于车道线检测这一特定任务。 (2)针对车道线检测任务需要更充分的车道线空间关系以及图像全局上下文信息的问题,本文提出一种基于全维度动态卷积-Transformer的消失点辅助车道线检测模型(ODConv-Transformer-based vanish Point Auxiliary Lane Detection Network,OTVPA-Net)。该模型使用本文提出的ODNL-Net对图像进行特征提取。同时,非局部网络和Transformer模型互相配合,使OTVPA-Net在空间以及通道两个维度下提取出丰富的全局性信息,有效提升了模型的全局感知能力。此外,OTVPA-Net实现了端到端的像素级车道线检测,能很好地适应诸如分叉、断裂等复杂车道线拓扑结构。 (3)针对多帧图像的车道线检测任务性能与计算量不平衡的问题,在OTVPA-Net的基础上,本文提出了一种基于前序帧特征序列-Transformer的时序车道线检测模型(Preceding Frame Feature Sequence-Transformer based Temporal Lane Detection,PFFST-Net)。该模型采用本文提出的一种创新性的时序特征提取块,从先前图像帧序列中提取出最为关键的车道线特征,使模型在不显著提高计算复杂度的前提下充分利用时序车道特征,有效提升了模型的检测性能。 本文使用一系列车道线公开数据集以验证模型的性能,实验结果显示,OTVPA-Net与PFFST-Net模型在这些数据集中均达到了最优或先进水平。尤其在挑战性场景丰富的Open Lane数据集上,OTVPA-Net与PFFST-Net模型相较于拥有次高性能的模型分别提升了6.4与5.4个百分点,在各类挑战性场景中均取得了最优表现。同时OTVPA-Net的检测速度达到了103 FPS,且计算量仅为14.2GFlops,其实时性也得到了验证。此外,本文还对车道线检测技术的未来发展方向进行了展望,为相关领域的研究提供了新的思路和方法。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分