咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于YOLOv7算法的远景行人检测研究 收藏
基于YOLOv7算法的远景行人检测研究

基于YOLOv7算法的远景行人检测研究

作     者:唐凡 

作者单位:河北大学 

学位级别:硕士

导师姓名:杨芳

授予年度:2024年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 080203[工学-机械设计及理论] 0835[工学-软件工程] 0802[工学-机械工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:行人检测 小目标检测 YOLOv7 坐标注意力机制 递归门控卷积 模型部署 

摘      要:行人检测作为计算机视觉领域重要研究方向之一,已经在辅助驾驶、智能机器人、智能交通、救援搜救和运动分析等众多领域中取得了不错的成果。但当一般的行人检测模型遇到远距离、大背景、低像素的低分辨率图像时,会因为人物之间密集遮挡、人体像素占比少和人群姿态各不相同的特点产生不理想的检测结果。 为解决这些问题,本文针对未进行充分探索的远景行人检测任务,以深度学习算法YOLOv7为基础网络架构进行研究,对远距离场景下的微小行人检测任务做深入探讨,提出了一种微小行人检测算法模型TOD-YOLOv7,并对后续模型的优化加速和部署工作做了研究。主要工作如下: (1)针对微小行人特征难以提取问题,为了更好的提取行人特征,使模型理解全局上下文信息,在骨干网络上进行改进,考虑到递归门控卷积可以帮助网络捕获输入序列中的长期依赖关系,本文结合递归门控卷积模块实现高阶空间交互,对于本文的远景行人检测,这有助于更好地理解目标与背景的关系,使得图片局部和全局信息融合,同时相比较于基线模型中的ELAN模块,引入递归门控卷积带来更少的参数量,降低了推理时间。另一方面,为了强化行人信息消除巨大背景带来得干扰,本文将坐标注意力机制融入到YOLOv7的Neck层网络中,可以有效对输入的特征图进行增强,让网络关注于感兴趣的区域。 (2)针对微小行人尺度变化多样,微小行人目标难以检测的问题,本文对YOLOv7的Neck层网络进行了重构。通过增加微小目标检测层提高检测能力的同时实现多尺度的检测,这一优化在延长Neck结构的基础上,显著提高了检测尺度的鲁棒性与对于微小行人的检测能力。考虑到训练过程模型的性能评估精度问题,同时为了应对数据集中可能出现的正负样本不均衡,本文对原模型的损失函数做了替换。使用EIo U损失函数替换原CIo U损失函数计算边界框的损失增加对模型性能评估的精度和敏感性,并结合Focal Loss使得模型在训练过程中能够更有效地处理不同难度的样本。 (3)针对部署时模型过大和推理速度过低等问题,本文通过深入研究模型结构,精准识别并去除常量算子,从而实现模型的精简,同时使用Tensor RT进行算子优化降低模型计算量和参数量,并结合数值量化技术降低计算精度。这些优化技术共同作用实现了本文的模型推理加速,最后基于Gradio实现快速的模型部署搭建可视化界面,使整个远景行人检测平台能够可交互的使用。 通过实验得到以下数据:基线模型YOLOv7在Tiny Person数据集检测精度为7.6%,检测速度FPS为256。本文提出的方法在Tiny Person数据集检测精度为9.5%,检测速度FPS为208。同时进行模型算子优化和量化计算加速之后,本文的模型在FP32和FP16精度上图片的检测速度分别到达了232 FPS和294 FPS,在视频流的检测速度上分别达到了149 FPS和167 FPS。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分