特征融合与层间传递:一种基于Anchor DETR改进的目标检测方法
作者机构:中国计量大学信息工程学院 北京航空航天大学杭州创新研究院 浙江中控技术股份有限公司
出 版 物:《图学学报》 (Journal of Graphics)
年 卷 期:2024年第5期
页 面:968-978页
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
基 金:浙江省重点研发计划项目(2024C01028 2024C01108 2022C01082 2023C01032)~~
主 题:目标检测 特征融合 Transformer 注意力机制 图像处理
摘 要:目标检测是计算机视觉领域中的一项重要任务,旨在从图像或视频中准确识别和定位感兴趣的目标物体。本文提出了一种改进的目标检测算法,通过增加特征融合、优化编码器层间传递方式和设计随机跳跃保持方法,解决一般Transformer模型在目标检测任务中存在的局限性。针对Transformer视觉模型由于计算量限制只应用一层特征,导致目标对象信息感知不足的问题,利用卷积注意力机制实现了多尺度特征的有效融合,提高了对目标的识别和定位能力。通过优化编码器的层间传递方式,使得每层编码器有效地传递和学习更多的信息,减少层间信息的丢失。还针对解码器中间阶段预测优于最终阶段的问题,设计了随机跳跃保持方法,提高了模型的预测准确性和稳定性。实验结果表明,改进方法在目标检测任务中取得了显著的性能提升,在COCO2017数据集上,模型的平均精度AP达到了42.3%,小目标的平均精度提高了2.2%;在PASCAL VOC2007数据集上,模型的平均精度AP提高了1.4%,小目标的平均精度提高了2.4%。