检索结果-南通市图书馆

维普期刊数据库

视觉问答系统中先验缓解与多模态推理技术研究

在线全文

学校读者我要写书评

暂无评论

视觉问答系统中先验缓解与多模态推理技术研究

作者：金学勤东华大学

学位级别：硕士

随着人工智能技术的发展,传统的文本问答系统无法满足人们对问答系统准确、高效的需求,人们期待问答系统具备获取和理解不同类型信息的能力。视觉问答系统结合文本信息和视觉图像信息进行联合推理,弥补了文本问答信息源单一的缺点,能够... 详细信息

随着人工智能技术的发展,传统的文本问答系统无法满足人们对问答系统准确、高效的需求,人们期待问答系统具备获取和理解不同类型信息的能力。视觉问答系统结合文本信息和视觉图像信息进行联合推理,弥补了文本问答信息源单一的缺点,能够更加自然、直观以及准确地进行问答。现有视觉问答系统推理模块的设计无法应对多目标推理等复杂问题,同时由于普遍存在的先验问题,系统在预测答案时容易出现偏见。为了提高视觉问答系统的准确率,论文从先验缓解和多模态推理两方面进行了相关研究工作。在先验缓解方面,通过对语言和视觉先验来源与作用效果的分析,创造性地将视觉问答的先验划分为积极和消极两种类型,并对两种类型的先验分别设计相应的网络模块进行捕捉和处理,以保留能为问答提供基础知识和问答信息的先验,去除给问答造成偏见的先验。为了进一步缓解先验问题,论文利用模型捕捉先验模块的中间结果设计了一个动态变化的损失函数,根据先验的强弱动态平衡损失值的权重。在多模态推理方面,为了适应复杂多变的问题类型,论文设计了一个新的多模态推理模块,通过合并空间坐标和视觉语义表示,加强多模态特征向量的交互以及视觉区域间的相关性推理,提高了问答系统的多模态推理能力。论文使用标准数据集进行对比试验,实验结果证明所提出的模型能够有效缓解先验问题,并且具备较强的多模态推理能力。同时,先验缓解模块不依赖于视觉问答基线模型,可以作为一个插件联合任意视觉问答基线模型使用,具有普适性。综合运用这些模型和技术,论文设计了一个基于视觉问答的育儿早教演示系统,在实际应用中验证了模型的有效性和实用性。具体来说,论文的研究工作包括以下几个方面。(1)为了解决视觉问答系统中的先验问题,提出了先验缓解模型PMM-VQA(Priors Mitigation Model for VQA)。该模型通过不同模块对先验知识的捕捉与处理,来缓解语言和视觉先验问题。论文首先将语言先验分为积极语言先验和消极语言先验,从而对不同的先验采用不同的网络模块进行捕捉和处理,以达到缓解语言先验的目的。其次将语言先验的理论应用到视觉信息的处理中。通过对视觉问答中视觉先验来源的分析,确定视觉先验中需要去除的部分先验,用单独的消极视觉先验去除模块对其进行捕捉和处理。在模型预测阶段,保留针对该预测问题的全部先验,从而将可利用的推理信息最大化。PMM-VQA模型在VQA-CP v2数据集上表现出最优性能,其中基于S-MRL的PMM-VQA模型在添加语言先验缓解模块后取得了53.81%的准确率,在同时添加语言和视觉先验缓解模块后取得了55.15%的最优性能。(2)为了增强多模态推理能力,提出了基于视觉语义多模态推理的视觉问答先验缓解模型VSR-VQA(Visual Semantic Multimodal Reasoning Model for VQA)。首先,在处理问题文本时通过注意力机制将注意力集中在问题文本的关键词上,以减少无关信息的干扰,简化多模态推理模块处理的信息量。其次,设计了一个视觉语义多模态推理模块,包含双线性超对角融合模块以及视觉语义推理模块。通过加强多模态特征向量的细粒度表示与多模态特征向量的交互,以及视觉区域间的相关性推理,增强了视觉问答模型的多模态推理能力。VSR-VQA模型在VQA v2数据集中表现出64.49%的最优性能。最后,将PMM-VQA与VSR-VQA结合得到PMM-VSR模型,在增强多模态推理能力的同时缓解了先验问题。PMM-VSR模型分别在VQA v2与VQA-CP v2数据集中取得62.75%和54.97%的准确率,证明模型在缓解先验知识与保留推理信息之间达到平衡。(3)为了进一步缓解先验问题,借助PMM-VSR视觉问答模型中先验捕捉模块的中间结果设计了一个动态变化的损失函数,对每个答案处理时根据其存在的语言先验的强弱动态地设定损失值的权重,从而平衡在总视觉问答模型损失中的比例进一步缓解先验。使用该损失函数的模型在VQA v2与VQA-CP v2数据集中基于多个视觉问答基线模型都有稳定的精度提升,证明了该损失函数的有效性与普适性。(4)以论文提出的PMM-VSR模型为核心技术,设计并实现了基于视觉问答的育儿早教演示系统。系统中设计的不同的功能模块可以帮助儿童培养表达能力、识物能力、计数能力以及推理能力等。通过育儿早教演示系统的各个功能模块的实现效果,直观地验证了PMM-VSR视觉问答模型的有效性和实用性。

关键词：视觉问答先验缓解多模态推理深度特征融合

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于双路径多模态交互的一阶段视觉定位模型

华东师范大学学报（自然科学版） 2024年第2期 65-75页

作者：王月叶加博林欣华东师范大学计算机科学与技术学院上海200062

现有的一阶段方法分别提取视觉特征映射和文本特征,并进行多模态推理来预测被引用对象的边界框.这些方法存在以下两个缺点:首先,预先训练的视觉特征提取器在视觉特征中引入了与文本无关的视觉信号,阻碍了多模态交互;其次,现有模型的推... 详细信息

现有的一阶段方法分别提取视觉特征映射和文本特征,并进行多模态推理来预测被引用对象的边界框.这些方法存在以下两个缺点:首先,预先训练的视觉特征提取器在视觉特征中引入了与文本无关的视觉信号,阻碍了多模态交互;其次,现有模型的推理过程缺乏对语言建模的可视化指导.基于上述缺点,现有的一阶段方法的推理能力是有限的.提出了一种提取文本相关视觉特征映射的低阶交互和一种整合视觉特征的高阶交互来指导语言建模,并进一步对视觉特征进行多步推理.在此基础上,提出了一种新的网络结构,称为双路径多级交互网络.在5种常用的视觉定位数据集上进行了实验,结果表明该方法具有较好的性能和实时性.

关键词：视觉定位多模态推理引用表达

维普期刊数据库博看期刊

在线全文

学校读者我要写书评

暂无评论

面向遥感视觉问答的尺度引导融合推理网络

软件学报 2024年第5期35卷 2133-2149页

作者：赵恩源宋宁聂婕王鑫郑程予魏志强中国海洋大学信息科学与工程学部山东青岛266100 清华大学计算机科学与技术系北京100084 青岛海洋科技中心山东青岛266061

遥感视觉问答(remote sensing visual question answering,RSVQA)旨在从遥感图像中抽取科学知识.近年来,为了弥合遥感视觉信息与自然语言之间的语义鸿沟,涌现出许多方法.但目前方法仅考虑多模态信息的对齐和融合,既忽略了对遥感图像目... 详细信息

遥感视觉问答(remote sensing visual question answering,RSVQA)旨在从遥感图像中抽取科学知识.近年来,为了弥合遥感视觉信息与自然语言之间的语义鸿沟,涌现出许多方法.但目前方法仅考虑多模态信息的对齐和融合,既忽略了对遥感图像目标中的多尺度特征及其空间位置信息的深度挖掘,又缺乏对尺度特征的建模和推理的研究,导致答案预测不够全面和准确.针对以上问题,提出一种多尺度引导的融合推理网络(multi-scale guided fusion inference network,MGFIN),旨在增强RSVQA系统的视觉空间推理能力.首先,设计基于Swin Transformer的多尺度视觉表征模块,对嵌入空间位置信息的多尺度视觉特征进行编码;其次,在语言线索的引导下,使用多尺度关系推理模块以尺度空间为线索学习跨多个尺度的高阶群内对象关系,并进行空间层次推理;最后,设计基于推理的融合模块来弥合多模态语义鸿沟,在交叉注意力基础上,通过自监督范式、对比学习方法、图文匹配机制等训练目标来自适应地对齐融合多模态特征,并辅助预测最终答案.实验结果表明,所提模型在两个公共RSVQA数据集上具有显著优势.

关键词：遥感视觉问答多模态智能融合多模态推理多尺度表征

维普期刊数据库

在线全文

学校读者我要写书评

暂无评论

文本信息引导的注意力机制细粒度图像分类

计算机与数字工程 2024年第08期 2493-2497页

作者：潘恒江苏科技大学能源与动力学院

自然图像中带有显式语义信息的场景文本，能提供重要的线索用来解决对应的计算机视觉问题，在文本中，一般专注于利用视觉和文本提示形式的多模式内容来解决细粒度图像分类和检索的任务。论文采用图卷积网络执行多模式推理，并通过学习... 详细信息

自然图像中带有显式语义信息的场景文本，能提供重要的线索用来解决对应的计算机视觉问题，在文本中，一般专注于利用视觉和文本提示形式的多模式内容来解决细粒度图像分类和检索的任务。论文采用图卷积网络执行多模式推理，并通过学习显着对象和图像中找到的文本之间的公共语义空间来获得关系增强的特征，通过获得一组增强的视觉和文本功能，所提出的模型在两个不同的任务（细粒度分类和上下文文本中的图像检索）方面大大优于现有技术。

关键词：图像细粒度分析多模态推理图神经网络

智能医疗辅助诊断系统的采纳影响因素与决策模型研究

在线全文

同方期刊数据库

学校读者我要写书评

暂无评论

智能医疗辅助诊断系统的采纳影响因素与决策模型研究

作者：黄辉合肥工业大学

学位级别：硕士

经过快速的发展变革,我国居民健康水平和医疗诊疗能力得到了显著提升。然而,优质医疗资源在我国区域之间、城乡之间分配严重不均,基层医院特别是边远地区落后的医疗机构,在胃癌等重大疾病的诊疗水平差异显著,不利于保障广大人民群众的... 详细信息

经过快速的发展变革,我国居民健康水平和医疗诊疗能力得到了显著提升。然而,优质医疗资源在我国区域之间、城乡之间分配严重不均,基层医院特别是边远地区落后的医疗机构,在胃癌等重大疾病的诊疗水平差异显著,不利于保障广大人民群众的生命安全和健康。近年来,智能医疗辅助诊断系统的出现及发展对于提高医生诊疗能力,缩小城乡间等医疗服务差距具有重要作用。然而,智能医疗辅助诊断系统在我国各级医疗机构普及率依然不够理想,对于促进优质医疗资源均衡分布、推动基层医疗机构诊疗水平提升尚未形成有力支撑。因此,本文重点开展了智能医疗辅助诊断系统医生采纳影响因素研究,并结合影响系统推广的诊断准确性和可理解性等关键因素,创新设计了一种多模态推理辅助诊断决策模型。本文研究工作如下:(1)本文综合运用技术接受模型和感知风险理论,构建了智能医疗辅助诊断系统采纳模型;通过互联网调查回收181位医生的完整问卷,并对问卷数据进行效度、信度、共同方法偏差和多重共线性等有效性检验;运用结构方程模型对提出的假设及模型进行实证分析,揭示了信息质量、感知有用性、感知风险对医生使用意愿的影响机制。(2)本文根据可理解性等信息质量因素对医生使用意愿显著影响的调查结论,针对普遍存在的结果可理解性差和多模态数据处理难问题,运用多模态智能分析方法和注意力机制,建立了一种融合医疗图像和文本型电子病案的多模态推理辅助诊断决策模型(SCNet),并使用某大型三甲医院的8272例胃镜检查多模态电子病案验证模型的性能和可理解性。综上所述,本文开展的研究工作对于辨识制约智能医疗辅助诊断系统推广的影响因素、厘清未来系统的可理解性等研究方向具有重要实践价值,对于丰富和发展智能医疗决策理论具有理论意义。

关键词：智能医疗采纳模型临床决策支持多模态推理

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于多任务学习的一阶段视觉定位研究

基于多任务学习的一阶段视觉定位研究

作者：王月华东师范大学

学位级别：硕士

视觉定位旨在定位由自然语言查询引用的图像上的一个区域,它包含两个子任务:引用表达式理解(Referring Expression Comprehension,REC)和引用表达式分割(Referring Expression Segmentation,RES)。近年来,视觉定位技术受到越来越多的关... 详细信息

视觉定位旨在定位由自然语言查询引用的图像上的一个区域,它包含两个子任务:引用表达式理解(Referring Expression Comprehension,REC)和引用表达式分割(Referring Expression Segmentation,RES)。近年来,视觉定位技术受到越来越多的关注,通过视觉定位模型构建的图像和句子之间的细粒度对齐有助于更好地理解下游任务的多模态数据,如视觉问题回答和视觉语言导航等。本文探讨了一阶段视觉定位的多模态理解与推理。现有的一阶段方法分别提取视觉特征映射和文本特征,并进行多模态推理来预测被引用对象的边界框。这些方法存在以下缺点:首先,预先训练的视觉特征提取器在视觉特征中引入了文本无关的视觉信号,阻碍了多模态交互。其次,这些方法的推理过程缺乏对语言建模的可视化指导。最后,以前的REC或RES方法因为采用两阶段的设计而受到性能限制,或者设计的一阶段架构较为复杂,缺乏能够便捷高效的联合学习REC和RES任务的一阶段方法。针对视觉噪声问题,本文提出了一种文本无关视觉噪声的过滤方法TVNF来减少文本无关视觉噪声对推理的影响。该方法采用了通道注意和空间注意两个模块,增强图像中文本信息的表征,同时过滤掉大量文本无关的视觉噪声,显著增强图像文本间信息的细粒度交互程度,提高视觉定位模型的准确性和泛化能力。通过对比和消融实验,验证了TVNF的有效性。针对长而复杂指代下的定位误差问题,本文提出了一种递归的图文编码交互方法模型,以图像特征开始,将每一轮推理的中间理解表示为文本条件视觉特征,经过在图像和文本信息之间的多轮递归推理,逐步减少视觉定位任务在复杂场景下的引用歧义,生成更准确的定位预测结果。基准实验和消融实验验证了本方法的有效性。针对视觉定位任务中的REC和RES两个子任务,本文提出了一阶段双路径多级交互多任务网络DMIMN。DMIMN用低阶交互过滤文本无关视觉噪声,用高阶交互执行多步推理;在低阶交互视觉信息的特征提取中引入了句子的上下文表示,并通过使用高阶交互视觉特征增强语言建模。同时,DMIMN将REC和RES任务联系起来,以最大限度地提高他们的协作学习能力。实验证明了此模型在REC和RES多任务训练上的实时性和有效性。

关键词：视觉定位多模态推理引用表达式定位多任务学习

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于注意力机制的视觉问答方法研究

基于注意力机制的视觉问答方法研究

作者：陈南聪桂林电子科技大学

学位级别：硕士

视觉问答任务(Visual Question Answering,VQA)是融合自然语言处理和计算机视觉任务中一个新兴的重要子课题。作为图灵测试中一个重要的环节,它对推动未来通用人工智能的发展奠定了坚实的基础。针对不同模态间存在的语义鸿沟等问题,本... 详细信息

视觉问答任务(Visual Question Answering,VQA)是融合自然语言处理和计算机视觉任务中一个新兴的重要子课题。作为图灵测试中一个重要的环节,它对推动未来通用人工智能的发展奠定了坚实的基础。针对不同模态间存在的语义鸿沟等问题,本文结合注意力机制和图结构等技术进行视觉问答方法研究,本文主要研究内容如下:针对现有视觉问答算法中没有充分学习图像与问题跨模态交互信息的问题,提出了基于多层次注意力机制的视觉问答方法。该方法由3个模块构成,分别是特征提取模块、模态信息交互模块以及多模态融合和输出分类模块。首先对图像和文本分别进行特征提取,并通过自注意力和引导注意力等多个注意力单元进行深层次的模态交互和不同模态间的相互指导,以具有更多不同模态间信息的特征进行答案推理。实验结果表明:所提出的方法能够在准确度不高的Number类型问题上提升0.61%,并且在其他类型答案上本方法也给出了较为满意的答案。针对传统视觉问答研究没有充分理解图像中物体之间的交互信息,忽略了双模态中图像和文字语义信息的动态关系和不同区域间丰富的空间结构等问题,提出一种基于图注意力网络的多模块视觉问答方法。图神经网络可以依靠高层次的文本图像-图像表示,不断地更新节点之间的信息,使模型可以对视觉场景中对象间的关系动态交互和文本上下文表示进行充分理解。实验结果表明:该方法在Test-std上达到71.54%的准确率,可为视觉问答算法提供有力手段。针对图注意力网络模型中没有充分考虑不同节点之间的贡献度和影响力不同的问题,通过注意力加权的机制更新相邻节点的特征,使得突出区域获得更高的权重值,基于此提出基于注意力加权的图卷积视觉问答方法。并通过在数据集VQA2.0与其他VQA模型进行对比实验,实验结果表明:该方法在Test-std上有71.69%的正确率,该方法能有效提升视觉问答的准确率。

关键词：视觉问答注意力机制多模态推理图卷积网络