咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >外部知识驱动的视觉常识推理研究 收藏
外部知识驱动的视觉常识推理研究

外部知识驱动的视觉常识推理研究

作     者:张建庆 

作者单位:天津理工大学 

学位级别:硕士

导师姓名:徐常胜;严明

授予年度:2023年

学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程] 

主      题:视觉常识推理 外部知识 语义鸿沟 跨模态 

摘      要:近年来,视觉常识推理任务作为跨模态智能研究的一个重要组成部分,受到了多模态领域研究人员的广泛关注。尽管对视觉常识推理的研究已经取得了很多优异的成果,但是如何缩小图像模态和文本模态之间的语义鸿沟、挖掘合理且有效的外部知识以及破解黑盒模型实现显式推理过程仍是研究人员亟待解决的重要问题。为了解决上述问题,本文结合深度学习相关技术提出了外部知识驱动的视觉常识推理方法。文章的主要内容如下:(1)提出基于多任务学习的视觉常识推理模型。该模型通过图文匹配模块和视觉常识推理模块的特征提取器参数共享,挖掘图文匹配模块学习的跨模态知识作为外部知识,并将其应用于视觉常识推理模块,通过两个任务的联合优化,并行计算,提升模型的泛化能力和性能。在图文匹配模块提出了一个特征多重池化操作,针对每个局部特征选择最合适的池化操作得到其全局特征,进而实现视觉和文本模块的高度对齐,缩小其语义鸿沟。并在VCR公开视觉常识推理数据集上的实验结果证明了该方法的有效性。(2)提出图推理增强的视觉常识推理模型。该模型通过将视觉文本特征和图结点表示输入到Transformer编码器中,并允许不同模态信息在每一层特征更新时进行信息交互,使模型不仅可以学习到外部世界结构化的知识,也缩小了不同模态之间的语义鸿沟。从外部知识库检索知识子图时,提出了一种结点相关性评分机制,通过查询和响应的引导,借助图注意力网络计算结点之间的相关性,以获取知识子图辅助模型预测。并在VCR公开视觉常识推理数据集上的实验结果证明了该方法的有效性。(3)设计视觉常识推理原型系统。采用VUE、Element-UI和Python等技术进行混合编程的方式设计实现了视觉常识推理原型系统,通过前后端分离的方式使该系统实现了答案选择和答案验证等功能。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分