咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度学习的视频文本描述研究及煤矿应用 收藏
基于深度学习的视频文本描述研究及煤矿应用

基于深度学习的视频文本描述研究及煤矿应用

作     者:马钰 

作者单位:西安科技大学 

学位级别:硕士

导师姓名:付燕

授予年度:2021年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 0819[工学-矿业工程] 081903[工学-安全技术及工程] 08[工学] 081104[工学-模式识别与智能系统] 080203[工学-机械设计及理论] 0802[工学-机械工程] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:视频文本描述 深度学习 注意力机制 煤矿场景 BERT模型 

摘      要:视频文本描述是一个具有挑战性的任务,它涵盖了计算机视觉和自然语言处理两个方面,其主要目标是将视觉内容转换为准确而简洁的文字描述。视频文本描述在很多领域都具有广阔应用前景,特别是在煤矿领域已经得到越来越多人的关注,把视频文本描述的技术运用到煤矿井下,降低了检索煤矿视频的难度和时间,对于煤矿井下监控视频智能化的研究具有重大意义。由于视频底层的视觉特征与高级语义之间存在着很大差异,本文通过结合视频的特征提取、视觉文本检测对基于深度学习的视频文本描述方法进行改进,主要的研究内容如下:(1)在以往的编码器-解码器的学习中,所有视频特征的长度都被编码成固定长度,随着输入的视频特征长度不断地增加,视频文本描述效果越来越差,而引入注意力机制可以有效地提升视频文本描述模型在编码器-解码器任务上的性能,使得编码器在进行视频处理时能够给予模型在视频的关键部分获得更高权重。为此,本文提出一种基于注意力3D残差网络的视频文本描述模型。首先在编码阶段,将注意力机制引入3D残差模块,通过一维通道注意力与二维空间注意力增强视频特征映射,降低无关目标与噪声的影响;其次,利用Glove模型对视频文本进行向量化,增强词与词之间的相关性;最后在解码阶段利用双层LSTM深度网络的时序性特征,输出表述视频高层语义的文本描述。本文在MSVD与MSR-VTT两个公共数据集进行实验,实验结果表明,该模型能够更加准确的利用自然语言描述视频高层语义信息。(2)针对多数的视频文本描述算法对视频内目标细节部分描述不充分,容易忽略视频潜在文本特征这一问题,提出了一种基于视觉文本和残差连接的视频本文描述方法。首先,利用BERT模型检测出视频中的视觉文本;其次,将这些视觉文本与第一层的GRU网络输出进行融合输入进第二层GRU网络中;最后,为了得到更紧密的视频与文本描述之间映射关系,在每层GRU构建了残差连接结构。实验结果表明,该模型能够对视频中的细节信息进行描述,优化了视频文本描述的质量。(3)将本文提出的视频文本描述技术运用到煤矿井下。首先对煤矿井下监控视频进行预处理,制作煤矿描述数据集,利用煤矿数据集对本文模型进行训练,其次煤矿井下监控视频往往带有事件发生的时间与地点,为了使视频描述更加具体,将视频提取的字幕引入GRU语言模型生成的文本描述中,生成煤矿监控视频的文本描述。最后由实验结果可知,本文提出的模型在煤矿描述数据集中有较好的结果。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分