咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于图结构的级联注意力视觉问答模型 收藏

基于图结构的级联注意力视觉问答模型

Cascading Attention Visual Question Answering Model Based on Graph Structure

作     者:张昊雨 张德 ZHANG Haoyu;ZHANG De

作者机构:北京建筑大学电气与信息工程学院&建筑大数据智能处理方法研究北京市重点实验室北京100044 

出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)

年 卷 期:2023年第59卷第6期

页      面:155-161页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金(61871020) 

主  题:视觉问答 注意力机制 图卷积神经网络 特征融合 

摘      要:视觉问答是一个具有挑战性的问题,需要结合计算机视觉和自然语言处理的概念。大多数现有的方法使用双流方式,先分别计算图像和问题特征,然后再采取不同的技术和策略进行融合。目前,尚缺乏能够直接捕获问题语义和图像空间关系的更高层次的表示方法。提出一种基于图结构的级联注意力学习模型,该模型结合了图学习模块(学习输入图像问题的特定图表示)、图卷积层和级联注意力层,目的是捕捉不同候选框区域图像的空间信息,以及其与问题之间的更高层次的关系。在大规模数据集VQA v2.0上进行了实验,结果表明,跟主流算法相比较,是/否、计数和其他类型问题的回答准确率均有明显提升,总体准确率达到了68.34%,从而验证了提出模型的有效性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分