基于梯度融合和双线性注意力可变形卷积神经网络的图像质量评价研究
作者单位:山东大学
学位级别:硕士
导师姓名:冯好娣
授予年度:2023年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 080203[工学-机械设计及理论] 0835[工学-软件工程] 0802[工学-机械工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:无参考图像质量评价 卷积神经网络 梯度融合 可变形卷积 双线性注意力机制 门控机制
摘 要:深度学习技术在图像质量评价方面的应用是一个新兴的研究方向,目前图像质量评价模型在多媒体影音、医疗影像等多个领域有重要的应用,因此,对基于深度学习的无参考图像质量评价算法进行研究和改进具有重要的理论和现实意义。本工作调研了该课题的研究背景、意义和主要研究方法,发现传统图像质量评价方法主要采用传统数字图像检测,小波分解方法,支持向量机,人工神经网络等。这些方法将图像质量评价建模为分数回归预测的问题,在失真度极低或较高的图像预测方面效果很好,但由于对失真图像的细粒度特征抽取有明显的不足,造成部分中度失真图像预测精度普遍不高。针对现有模型存在的这些缺点,本论文提出了两个改进模型,分别是融合梯度信息的改进CNN(Convolutional Neural Networks)质量评价模型,以及基于梯度融合和双线性注意力机制可变形卷积神经网络模型。模型结合局部RGB信息和局部梯度信息来增强对图像局部边缘模糊的敏感性,同时使用双线性注意力机制可以帮助模型提取二阶特征并利用注意力中的注意力(Attention in Attention,AIA)机制提取二阶局部特征与全局特征之间的关系。另外,通过在不同层次上使用可变形卷积这一能够自适应地调整卷积核大小的卷积方式,模型可以有效地捕捉图像中的不同尺度信息。最后模型通过门控机制对每个特征进行自适应学习,调整其权重,进而更准确地对图像质量进行评价。实验采用了两个数据集,分别是TID2013和LIVE数据集。对于改进的梯度信息融合CNN质量评价模型,在TID2013数据集上,PLCC(Pearson Linear Correlation Coefficient)指标从 0.895 提升到 0.910,提升了 1.5%,SROCC(Spearman Rank Order Correlation Coefficient)指标从 0.871 提升到 0.883,提升了1.2%,KROCC(Kendall Rank Order Correlation Coefficient)从 0.863 提升到 0.876,提升了1.3%。而对于改进的基于梯度融合和双线性可变形卷积神经网络模型,PLCC指标从0.910提升到0.923,提高了 1.3%,SROCC指标从0.883提升到0.904,提升2.1%,KROCC 从 0.876 提升到 0.901,提升了 2.5%。从结果可以看出,本文所提出的四个改进点:梯度信息融合、双线性注意力机制、可变形卷积模块以及门控机制,在不同数据集上对图像质量评价的实验效果均提升明显,证明本文提出模型是有效的。本文还将所提出模型与其他模型进行对比,相比其他算法本文方法展现出较高的准确度,在图像质量评价领域具有重要的实际意义。