3D视觉舒适度预测技术研究
作者单位:杭州电子科技大学
学位级别:硕士
导师姓名:周洋
授予年度:2020年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
主 题:3D视觉 舒适度预测 DCT变换 特征提取 视差 深度调整
摘 要:三维(Three Dimension,3D)多媒体服务能给用户带来逼真的视觉体验,是多媒体技术的发展趋势之一。然而当前市场上的3D图像/视频质量参差不齐,人们在观看3D图像/视频时常会产生一定程度的视觉不舒适,因此需要对其进行感知舒适度评价。由于人眼主观判定3D图像/视频舒适度费时费力,所以人们须探求对其进行客观舒适度预测的方法,并在此基础上改善3D图像/视频的视觉感知舒适度。现有的3D视觉客观舒适度预测方法大多基于空域和时域信息,未能结合压缩域(频域)信息,这些方法尚未充分挖掘3D图像/视频的可用信息。基于上述研究背景,本学位论文主要研究如何有效地利用压缩域(频域)信息建立3D图像/视频舒适度的客观预测模型,并对3D视频进行舒适度提升。本文主要工作内容如下:1)提出了一个基于DCT变换的3D图像舒适度预测模型(3D-Ms DCT)。由于二维离散余弦变换(Discrete Cosine Transform,DCT)被广泛应用于图像/视频压缩中,因此本文对视差图进行多尺度DCT变换,从多尺度变换系数中提取出3D视觉舒适度特征。该模型定义了三类多尺度视觉舒适度特征,分别是8种不同尺度下的基本视差强度特征、7种尺度下的视差梯度能量特征和8种尺度下的视差纹理复杂度特征,然后采用随机森林回归算法训练融合23个多尺度视觉舒适度特征,从而获取最终的3D图像视觉舒适度预测值,率先实现了利用压缩域信息进行3D图像视觉舒适度的精确预测。2)以3D图像舒适度预测中提取的三类频域特征为基础,提出了一个空域、频域特征相结合的3D图像舒适度预测算法(3D-SF)。为充分挖掘3D图像的视觉不舒适因素,本文基于视差图的空间分布特性,提取了视差幅值、视差梯度、视差最大值与视差范围4个传统特征,归为空域低级视差特征。在此基础上,本文又将影响3D视觉舒适度的图像复杂度、目标边界突变、目标横向距离以及左、右边界视差这5个新参数作为影响视觉舒适度的空域高级视差特征,然后联合单尺度下的3个频域视差特征,共计12个舒适度特征进行3D图像舒适度预测。在特征融合中,本文采用了极端随机树回归模型来训练学习。实验结果表明该算法能提高预测的效率和准确度。3)提出了一个多维特征融合的3D视频舒适度预测算法(3D-SFT)。在3D场景中,由于物体运动特性是影响人眼观看3D视频舒适度的关键因素,所以本文挖掘了3D视频中目标物体在纵深方向运动的深度变化信息和物体在二维空间上的运动信息来衡量3D舒适度。之后通过结合视差图DCT变换后的频域特征和空域舒适度特征来进行3D视频舒适度预测。实验结果表明该算法提升了3D视频舒适度预测的准确度。此外,本文还提出了一种基于深度调整的3D视频舒适度改善方法,实验结果显示该方法能在一定程度上改善3D视频的舒适度。