基于混合训练与语义关联的视频描述算法
Video captioning algorithm based on mixed training and semantic association作者机构:武汉理工大学计算机与人工智能学院湖北武汉430070 湖北第二师范学院计算机学院湖北武汉430205 北京大学信息科学技术学院北京100091 湖北大学计算机与信息工程学院湖北武汉430062 华中科技大学计算机科学与技术学院湖北武汉430074
出 版 物:《华中科技大学学报(自然科学版)》 (Journal of Huazhong University of Science and Technology(Natural Science Edition))
年 卷 期:2023年第51卷第11期
页 面:67-74页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金资助项目(62271361) 湖北省自然科学基金资助项目(2023AFB206,2021CFB513,2021CFB281) 湖北省教育厅科学研究重点项目(D20213002)
主 题:视频描述 上下文语义 双流解码器 混合训练 曝光偏差
摘 要:针对目前主流方法在使用Transformer的自注意力基础单元或长短期记忆(LSTM)单元对序列词的依赖性进行建模中,忽略了句子中词与词之间的语义关系和训练与测试阶段的曝光偏差问题,提出混合训练与语义关联的视频描述算法(DC-RL).在编码器部分,采用双向长短期记忆循环神经网络(LSTM1)融合经过预训练模型得到的外观特征和动作特征;在解码器阶段,使用注意力机制动态地为全局语义解码器和自学习解码器提取与当前生成单词对应的视觉特征,缓解了由传统的全局语义解码器中的训练和测试之间的差异引起的曝光偏差问题.全局语义解码器使用真实描述中上一个时间步的单词来驱动当前单词的生成,并通过全局语义提取器提取与当前单词对应的全局语义信息辅助当前单词的生成.自学习解码器使用上一个时间步生成的单词的语义信息来驱动当前单词的生成.混合训练的融合网络运用强化学习的方式直接优化融合网络模型,运用先前词的语义信息,生成更加准确的视频描述.研究结果表明:在数据集MSR-VTT上,融合网络模型较baseline在B4,M,R和C四个指标上分别提升2.3%,0.3%,1.0%和1.9%,而使用强化学习优化的融合网络模型分别提升2.0%,0.5%,1.9%和6.1%.