咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于注意力机制的细粒度语义关联视频-文本跨模态实体分辨 收藏

基于注意力机制的细粒度语义关联视频-文本跨模态实体分辨

Fine-grained Semantic Association Video-Text Cross-modal Entity Resolution Based on Attention Mechanism

作     者:曾志贤 曹建军 翁年凤 蒋国权 徐滨 ZENG Zhi-xian;CAO Jian-jun;WENG Nian-feng;JIANG Guo-quan;XU Bin

作者机构:中国人民解放军国防科技大学第六十三研究所南京210007 

出 版 物:《计算机科学》 (Computer Science)

年 卷 期:2022年第49卷第7期

页      面:106-112页

学科分类:08[工学] 0812[工学-计算机科学与技术(可授工学、理学学位)] 081202[工学-计算机软件与理论] 

基  金:国家自然科学基金(61371196) 中国博士后科学基金(2015M582832)。 

主  题:跨模态实体分辨 共同空间 注意力机制 细粒度 语义相似度 特征提取 

摘      要:随着移动网络、自媒体平台的迅速发展,大量的视频和文本信息不断涌现,这给视频-文本数据跨模态实体分辨带来了迫切的现实需求。为提高视频-文本跨模态实体分辨的性能,提出了一种基于注意力机制的细粒度语义关联视频-文本跨模态实体分辨模型(Fine-grained Semantic Association Video-Text Cross-Model Entity Resolution Model Based on Attention Mechanism,FSAAM)。对于视频中的每一帧,利用图像特征提取网络特征信息,并将其作为特征表示,然后通过全连接网络进行微调,将每一帧映射到共同空间;同时,利用词嵌入的方法对文本描述中的词进行向量化处理,通过双向递归神经网络将其映射到共同空间。在此基础上,提出了一种自适应细粒度视频-文本语义关联方法,该方法计算文本描述中的每个词与视频帧的相似度,利用注意力机制进行加权求和,得出视频帧与文本的语义相似度,并过滤与文本语义相似度较低的帧,提高了模型性能。FSAAM主要解决了文本描述的词与视频帧关联程度不同而导致视频-文本跨模态数据语义关联难以构建以及视频冗余帧的问题,在MSR-VTT和VATEX数据集上进行了实验,实验结果验证了所提方法的优越性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分