咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于改进Pix2Seq的遥感影像典型旋转目标检测 收藏
基于改进Pix2Seq的遥感影像典型旋转目标检测

基于改进Pix2Seq的遥感影像典型旋转目标检测

作     者:邓世马 

作者单位:华中科技大学 

学位级别:硕士

导师姓名:陈忠

授予年度:2022年

学科分类:0810[工学-信息与通信工程] 08[工学] 081002[工学-信号与信息处理] 

主      题:遥感影像 目标检测 旋转目标框检测 Transformer 可变形注意力 图片相对位置编码 

摘      要:目标检测是遥感领域的一个重要研究方向,近些年随着高分辨率遥感卫星的发展,处理高分辨率卫星图像成为一项挑战。当前大多数深度学习目标检测模型依赖于锚框的设计,而锚框需要一定的先验知识来设计针对特定数据集的锚框先验参数,极大地影响了模型的泛化能力。并且锚框还会带来冗余计算,进一步影响了模型的高效性。另外在遥感影像的旋转目标检测中,大多数算法将旋转目标表示为矩形框与旋转角的组合,利用旋转角表达目标的方向信息,而角度变化的周期性,会在角度为边界值时带来损失突变的问题,给模型的稳定性带来了挑战。针对这些问题,本文做了如下的工作:针对旋转目标检测中锚框设计复杂和由计算旋转角度时带来的损失突变等问题,本文基于Pix2Seq框架,将旋转目标框表示为任意四边形,按顺时针方向对四边形的顶点坐标以及类别信息进行序列建模,在骨干网络层使用Swin Transformer提取图像特征信息,由此提出了一个完全使用Transformer编解码器结构的,将图像信息转化为目标序列信息的,基于对目标坐标点序列进行建模的旋转目标检测模型:OPix2Seq。该模型实现了端对端的单阶段不需要锚框的旋转目标检测,简化了旋转目标检测的流程。此外,本文以任意四边形表征旋转目标框,直接对四边形的顶点坐标进行序列建模,避免了旋转角度表征固有的损失突变问题,提高了模型的稳定性。针对本文提出的模型OPix2Seq中由高分辨率特征图带来的编码器计算复杂度过高和小目标检测精度不高的问题,本文使用可形变的注意力模块替代编码器中的多头注意力模块,以降低注意力模块的参数量和计算复杂度,并在可形变注意力模块的基础上,设计了结合多尺度特征的Transformer编码器,使用由骨干网络得到的多尺度特征图提取图像信息,在解码器中针对每个尺度的特征图进行目标序列的解码,从而提高小目标的检测精度。针对本文提出的模型OPix2Seq注意力模块中位置编码的特征表征能力不足的问题,本文使用上下文模式的图片相对位置编码替代编码器和解码器注意力模块中原有的位置编码,提高了注意力模块位置编码的表征能力。本文提出的OPix2Seq模型,在结合了多尺度特征以及图片相对位置编码之后,在飞机和舰船的旋转目标检测中,相比于同样无需锚框的PIo U+Center Net模型,本文的检测精度提升了约4%m AP。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分