基于Vision Transformer的智能图像处理研究
作者机构:吉林师范大学博达学院数学学院
出 版 物:《自动化应用》 (Automation Application)
年 卷 期:2024年第20期
页 面:138-140页
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
摘 要:传统的图像处理模型依赖于手工设计的特征提取器,在处理全局上下文信息时存在困难,导致模型在理解图像整体语义时受限。因此,提出了一种基于视觉自注意力模型(ViT)的智能图像处理,并对其进行改进,通过引入多头自注意力机制和层级特征提取模块,提高模型的处理能力。结果表明,所提模型在训练集数量为1 200左右时的性能趋于稳定,且表现出较好的性能。其他算法在训练集数量为1 200时未处于最佳性能。当训练集达到2 000时,所提模型的结构相似度值为0.98。结果表明,所提模型在处理图像时表现出了较高的性能和处理效率,为图像处理领域的问题带来了新的解决方法。