多视点视频编码预测结构评估与立体视频编码器优化
作者单位:浙江大学
学位级别:硕士
导师姓名:李东晓
授予年度:2012年
学科分类:0810[工学-信息与通信工程] 08[工学] 081001[工学-通信与信息系统]
主 题:多视点视频 预测结构 压缩效率 随机访问性能 可伸缩性 编码器优化
摘 要:多视点视频,作为一种新型的视觉媒体,通过多个视点的视频数据满足用户从多个角度选择和操作视听对象的需求,具有立体感和交互操作功能,是继高清平板电视后的下一代多媒体应用的发展方向。 本文围绕多视点视频的表达以及多视点视频技术中各项编码性能的评价与优化展开研究,重点研究了预测结构的压缩性能、随机访问性能、可伸缩性的性能评估和设计优化,立体视频编码器的优化实现等问题,成果主要包括如下几个方面: 研究了多视点视频的预测结构对多项编码性能的影响,提出了合理、有效的量化评估模型,探索了预测结构的多目标设计优化方法。对于解码随机访问性能,以用户随机访问习惯的测试结果为基础,构建了多视点解码交互式访问模型,提出了评估不同预测结构所需解码随机访问代价的量化模型。对于可伸缩性能,研究了预测结构对时间、空间、质量、视点等各个维度可伸缩性的影响。最后提出了多目标综合评估模型。实验结果表明,所提出的评估模型是合理的,可以有效地应用于预测结构的设计优化。 针对双目立体视频编码应用,基于JM17.2参考软件,研究了立体视频编码器的优化实现。面向率失真性能优化,提出了一种基于感兴趣区域的自适应码率分配方法。通过对视频序列进行立体匹配,根据视差检测感兴趣区域,在宏块级调整量化参数,进行自适应的不等码率分配。实验结果表明,在感兴趣区域量化参数不变、非感兴趣区域量化参数调大的情况下,可以在不损害立体视频主观质量的同时平均降低5.05%的码率。 针对工程应用需求,在现有的x264编码器基础上进行了立体视频扩展,支持MVC-3D标准。实验结果表明,基于x264扩展的立体视频编码器,比JM17.2软件的编码压缩性能更优,而且编码时间平均达到后者的1/800°对于大部分测试序列,在量化系数较大的情况下在普通PC平台上能实现实时的编码。 论文最后探索了未来的3D视频编码技术,提出了一种基于对象的3D视频表达方法。该方法将3D场景分割为若干个对象层,将多个视点的同一对象层图像数据融合到主视点的同一个对象层中,再将各对象层对应的深度信息用深度函数或深度级加深度变化模式的方法进行表达和编码。该表达方式具有压缩效率高、无空洞问题、解码复杂度低等特点,适用于3D视频的编码和应用。