基于多模态输入的对抗式视频生成方法
Antagonistic Video Generation Method Based on Multimodal Input作者机构:合肥工业大学计算机与信息学院合肥230031 模式识别国家重点实验室(中国科学院自动化研究所)北京100190
出 版 物:《计算机研究与发展》 (Journal of Computer Research and Development)
年 卷 期:2020年第57卷第7期
页 面:1522-1530页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家重点研发计划基金项目(2018AAA0100604) 国家自然科学基金项目(61702511,61720106006,61728210,61751211,U1836220,U1705262,61872424) 模式识别国家重点实验室自主课题(Z-2018007)
主 题:深度学习 视频生成 视频预测 卷积神经网络 生成对抗网络
摘 要:视频生成是计算机视觉和多媒体领域一个重要而又具有挑战性的任务.现有的基于对抗生成网络的视频生成方法通常缺乏一种有效可控的连贯视频生成方式.提出一种新的多模态条件式视频生成模型.该模型使用图片和文本作为输入,通过文本特征编码网络和运动特征解码网络得到视频的运动信息,并结合输入图片生成连贯的运动视频序列.此外,该方法通过对输入图片进行仿射变换来预测视频帧,使得生成模型更加可控、生成结果更加鲁棒.在SBMG(single-digit bouncing MNIST gifs),TBMG(two-digit bouncing MNIST gifs)和KTH(kungliga tekniska h?gskolan human actions)数据集上的实验结果表明:相较于现有的视频生成方法,生成结果在目标清晰度和视频连贯性方面都具有更好的效果.另外定性评估和定量评估(SSIM(structural similarity index)与PSNR(peak signal to noise ratio)指标)表明提出的多模态视频帧生成网络在视频生成中起到了关键作用.