一种多层多模态语义空间的注意力标注算法改进研究
An improved attention tagging algorithm for multi-level multimodal semantic space作者机构:常州工业职业技术学院信息工程学院江苏常州213164
出 版 物:《电子设计工程》 (Electronic Design Engineering)
年 卷 期:2021年第29卷第2期
页 面:48-52页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:针对图像标注和注意力机制结合过程中特征不充分性和预测过程中特征权重不足性,提出了一种多层多模态语义空间的图像注意力标注方法。通过多层多模态公共语义空间对文本和图像改进网络,从基于文本的语言模型中利用多层的深度卷积神经网络特征提取上下文和句子;利用非线性特征图视觉映射到各层的文本和句子中获得多个公共语义空间实例,其中所有目标文本和视觉文本之间是以余弦相似度进行计算的;构建多层多模注意力机制在每个输出层都加入视觉特征,选择一层与图像上下文得分相关性最高的一层作为输出标注。实验结果表明,该方法能较好地提取注意力区域并给出标注,与其他传统方法对比,文中提出的模型标注结果具有一定优势。