基于注意力机制的树木叶片分类识别方法研究
Research on Classification and Recognition Method of Tree Leaves Based on Attention Mechanism作者机构:西藏自治区林芝市自然资源局 西藏农牧学院资源与环境学院西藏林芝860000 北京林业大学精准林业北京市重点实验室北京100083
出 版 物:《高原农业》 (Journal of Plateau Agriculture)
年 卷 期:2024年第8卷第4期
页 面:393-403页
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:西藏自治区科技厅中央引导地方项目(XZ202301YD0043C) 多源激光雷达结合数字孪生的藏东南优势树种固碳能力研究
摘 要:本文将注意力机制分类模型——Vision Transformer(ViT)应用于树种分类识别任务,旨在探索更高精度和更高效率的树种识别模型。本研究共设计了三组对比实验:(1)用ViT和ResNet50在实验环境的数据集上进行训练、验证和测试,(2)为Vi T模型设置不同的深度进行训练,(3)用ViT和ResNet50在真实环境的数据集上进行训练、验证和测试。结果表明,无论是实验环境的数据集,还是真实环境的数据集,ViT模型都达到了与ResNet50模型相当的分类性能,并且ViT模型的时间效率明显优于ResNet50。此外,本研究还展示了Vi T对真实环境的图像进行分类时的类激活热力图,发现ViT模型更关注树叶本身尤其是树叶边缘而忽略了复杂的背景,从而有效提高了分类精度。结果说明,两个模型分类精度相当,但ViT的收敛速度明显更快,学习特征的能力更强,泛化能力也更强。本研究是将ViT应用在树种分类识别这一具体任务上的一次有益尝试,为后续融合ViT与CNN优势,以更高的效率、更小的数据需求、在更复杂的高原林业数据集上进行树种识别研究奠定基础。