外部知识驱动的视觉常识推理研究-南通市图书馆

文献详情 >外部知识驱动的视觉常识推理研究收藏

外部知识驱动的视觉常识推理研究

作者：张建庆

作者单位：天津理工大学

学位级别：硕士

导师姓名：徐常胜;严明

授予年度：2023年

学科分类：08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]

主题：视觉常识推理外部知识语义鸿沟跨模态

摘要：近年来,视觉常识推理任务作为跨模态智能研究的一个重要组成部分,受到了多模态领域研究人员的广泛关注。尽管对视觉常识推理的研究已经取得了很多优异的成果,但是如何缩小图像模态和文本模态之间的语义鸿沟、挖掘合理且有效的外部知识以及破解黑盒模型实现显式推理过程仍是研究人员亟待解决的重要问题。为了解决上述问题,本文结合深度学习相关技术提出了外部知识驱动的视觉常识推理方法。文章的主要内容如下:(1)提出基于多任务学习的视觉常识推理模型。该模型通过图文匹配模块和视觉常识推理模块的特征提取器参数共享,挖掘图文匹配模块学习的跨模态知识作为外部知识,并将其应用于视觉常识推理模块,通过两个任务的联合优化,并行计算,提升模型的泛化能力和性能。在图文匹配模块提出了一个特征多重池化操作,针对每个局部特征选择最合适的池化操作得到其全局特征,进而实现视觉和文本模块的高度对齐,缩小其语义鸿沟。并在VCR公开视觉常识推理数据集上的实验结果证明了该方法的有效性。(2)提出图推理增强的视觉常识推理模型。该模型通过将视觉文本特征和图结点表示输入到Transformer编码器中,并允许不同模态信息在每一层特征更新时进行信息交互,使模型不仅可以学习到外部世界结构化的知识,也缩小了不同模态之间的语义鸿沟。从外部知识库检索知识子图时,提出了一种结点相关性评分机制,通过查询和响应的引导,借助图注意力网络计算结点之间的相关性,以获取知识子图辅助模型预测。并在VCR公开视觉常识推理数据集上的实验结果证明了该方法的有效性。(3)设计视觉常识推理原型系统。采用VUE、Element-UI和Python等技术进行混合编程的方式设计实现了视觉常识推理原型系统,通过前后端分离的方式使该系统实现了答案选择和答案验证等功能。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

外部知识驱动的视觉常识推理研究

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

外部知识驱动的视觉常识推理研究

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：