基于多模态信息融合的驾驶状态识别方法研究
作者单位:杭州电子科技大学
学位级别:硕士
导师姓名:陈慧勤
授予年度:2023年
学科分类:082304[工学-载运工具运用工程] 08[工学] 080204[工学-车辆工程] 0802[工学-机械工程] 0823[工学-交通运输工程]
主 题:人机共驾 驾驶状态 风险等级量化 多模态信息融合 迁移学习
摘 要:完全自动驾驶短期内难以实现,因此从传统驾驶过渡到人机协同共驾是必然趋势。在人机协同驾驶系统中,驾驶员与自动驾驶系统相互配合相互制约。当驾驶人当前的驾驶状态或驾驶能力不足以安全执行驾驶任务时,则由自动驾驶系统继续辅助驾驶或者短期内完全接管车辆控制权。因此准确识别驾驶员当前驾驶状态或驾驶风险是自动驾驶系统实现控制权分配或切换的重要前提和依据。在实际驾驶过程中,驾驶人的驾驶状态受多种因素影响,但一般都会通过驾驶员行为动作或车辆运动状态反映出来。本文以驾驶状态识别为研究对象,搭建了模拟驾驶仿真平台并设计实验来进行数据采集。数据类型包含表征驾驶员行为动作的视觉模态数据和表征车辆运动状态的传感模态数据。结合所采集的数据,尝试从安全驾驶、轻度风险、中度风险和重度风险四个级别来量化驾驶状态的风险程度。在对原始数据进行相应的预处理和分析后,先是基于已有的方法在仅依赖单模态数据信息的条件下进行驾驶状态识别,并依据识别结果讨论已有方法的优势与不足。接下来提出了一种融合多模态数据信息的Vision-Sensor Fusion Transformer(V-SFT)模型来进行驾驶状态识别,测试结果表明所提出的融合模型显著提升了识别精度。本文的主要工作内容如下:(1)模拟驾驶实验设计及其数据采集。首先在室内搭建了模拟驾驶仿真平台,并介绍了其硬件设备和软件系统;然后利用模拟驾驶仿真软件进行了道路、车辆和仿真环境的设计,为模拟驾驶提供逼真的体验;接下来进行了驾驶场景设计与次任务设计,其目的在于降低随机因素影响与诱导风险驾驶状态;最后制定了实验流程并招募了志愿者进行数据采集。(2)对所采集的多模态数据进行相应的预处理与分析。具体地,对于表征车辆运动状态的传感模态数据进行清洗与合并,通过显著性检验初步分析驾驶状态对典型车辆运动指标的影响规律,证实了模型构建的可能性。对于表征驾驶人行为动作状态的视觉模态数据进行关键帧提取与对应的图像处理,为模型的数据输入提供前期准备。(3)使用已有的方法,分别基于不同类型的单模态数据构建驾驶状态识别模型。具体地,基于传感单模态数据,使用传统的机器学习方法如支持向量机、随机森林,以及深度学习方法如循环神经网络、Transformer来实现不同风险等级的驾驶状态识别,其中Transformer模型的识别精度最高,为75.0%。此外,基于视觉单模态数据,使用深度神经网络包括MobileNetV3、InceptionV3、Res Net34以及Vision Transformer来实现不同风险等级的驾驶状态识别,其中Vision Transformer模型的识别精度最高,为86.5%。(4)提出Vision-Sensor Fusion Transformer(V-SFT)模型通过融合多模态信息来构建驾驶状态识别模型。先采用特征拼接来聚合不同模态的表示,然后通过注意力机制来实现模态内和模态间的信息交互,最后将特定位置的类别序列提取出来并映射到四个风险级别的标签空间。提出的方法在所采集的模拟驾驶数据集上进行了评估测试,并与其他方法进行了比较。结果表明,V-SFT模型的识别准确率为92.0%,显著高于其他方法,融合多模态信息是提高模型对驾驶状态理解的有效策略。