基于轻量级CNN-Transformer混合网络的梯田图像语义分割
Semantic segmentation of terrace image regions based on lightweight CNN-Transformer hybrid networks作者机构:成都理工大学机电工程学院成都610059
出 版 物:《农业工程学报》 (Transactions of the Chinese Society of Agricultural Engineering)
年 卷 期:2023年第39卷第13期
页 面:171-181页
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:汽车测控与安全四川省重点实验室开放基金(QCCK2021-008) 成都理工大学高等教育人才培养质量和教学改革项目(JG2130216)
主 题:图像处理 语义分割 轻量化模型 轴向注意力 梯田数据集
摘 要:梯田是一种传统的农业种植方式,具有稳定作物生产与水土保持的作用。快速、准确地对梯田区域分布信息进行采集,对提高粮食产量、治理水土流失以及规划区域生态等具有重要的作用与意义。无人机图像梯田道路边界模糊、具有较长的带状结构,为了更准确地获取梯田的边缘信息,受MobileVit启发,该研究在MobileViT block中引入了轴向注意力机制(axial attention),并采用编码器-解码器结构,提出了基于轻量级CNN-Transformer混合构架网络模型。模型编码器部分由改进的MobileViT block、融入了条形池化的逆残差模块和空洞空间金字塔池化模块构成,再通过有效设计摆放各模块的位置顺序来实现局部与全局的视觉表征信息交互,得到完整的全局特征表达;利用解码器对编码器提取到的多尺度特征图进行采样和卷积操作得到语义分割结果图。选取PSPNet、LiteSeg、BisNetv2、Deeplabv3Plus、MobileViT在相同测试集上进行对比试验,结果表明,该研究所提模型在精度与速度方面均具有一定的优势,其像素精度可达95.79%,频权交并比可达94.86%,模型参数量为8.32 M,实现了使用较少的参数和简单的方法对复杂无规则的无人机图像梯田区域较为准确的分割,将其部署到无人机上可以进一步获取梯田的形状、位置、轮廓等信息,可为预防和修护加固梯田提供重要的依据,同时有助于梯田区域种植面积和范围的统计,为梯田和旱作区农业建设的发展提供参考。