检索结果-南通市图书馆

维普期刊数据库

利用多级知识蒸馏进行高光谱图像分类的终身学习方法

在线全文

学校读者我要写书评

暂无评论

激光杂志 2024年

作者：姜紫惠李照奎王珂沈阳航空航天大学计算机学院

针对终身学习面临的灾难性遗忘问题，提出利用多级知识蒸馏进行高光谱图像分类的终身学习方法。首先，设计基于多模态对齐的特征提取器，充分利用高光谱图像的空谱信息和标签文本信息。此外，设计多级知识蒸馏策略，有效保留旧阶段的多... 详细信息

针对终身学习面临的灾难性遗忘问题，提出利用多级知识蒸馏进行高光谱图像分类的终身学习方法。首先，设计基于多模态对齐的特征提取器，充分利用高光谱图像的空谱信息和标签文本信息。此外，设计多级知识蒸馏策略，有效保留旧阶段的多模态知识。提出的方法在两个公共高光谱数据集上进行实验，与目前时新的方法相比，所提方法在Pavia University数据集上平均精度提升了15%-18%，在Botswana数据集上平均精度提升了1%-8%。

关键词：高光谱图像分类终身学习多模态对齐知识蒸馏

在线全文

同方期刊数据库

学校读者我要写书评

暂无评论

深度多模态表示学习的研究综述

计算机工程与应用 2023年第2期59卷 48-64页

作者：潘梦竹李千目邱天南京理工大学计算机科学与工程学院南京210094

尽管深度学习因为强大的非线性表示能力已广泛应用于许多领域,多源异构模态数据间结构和语义上的鸿沟严重阻碍了后续深度学习模型的应用。虽然已经有许多学者提出了大量的表示学习方法以探索不同模态间的相关性和互补性,并提高深度学习... 详细信息

尽管深度学习因为强大的非线性表示能力已广泛应用于许多领域,多源异构模态数据间结构和语义上的鸿沟严重阻碍了后续深度学习模型的应用。虽然已经有许多学者提出了大量的表示学习方法以探索不同模态间的相关性和互补性,并提高深度学习预测和泛化性能。然而,多模态表示学习研究还处于初级阶段,依然存在许多科学问题尚需解决。迄今为止,多模态表示学习仍缺乏统一的认知,多模态表示学习研究的体系结构和评价指标尚不完全明确。根据不同模态的特征结构、语义信息和表示能力,从表示融合和表示对齐两个角度研究和分析了深度多模态表示学习的进展,并对现有研究工作进行了系统的总结和科学的分类。同时,解析了代表性框架和模型的基本结构、应用场景和关键问题,分析了深度多模态表示学习的理论基础和最新发展,并且指出了多模态表示学习研究当前面临的挑战和今后的发展趋势,以进一步推动深度多模态表示学习的发展和应用。

关键词：多模态表示深度学习多模态融合多模态对齐

维普期刊数据库

在线全文

学校读者我要写书评

暂无评论

基于外部注意力机制的多模态模型研究

基于外部注意力机制的多模态模型研究

作者：郑玉栋黑龙江大学

学位级别：硕士

在深度学习盛行的今天,单一形态的数据已经不足以支持人们完成一些困难的任务,为了让人工智能在理解事物上取得进一步突破,人们利用多模态信息进行解释和推理,多模态信息指的是来自不同模态的信息,例如图像、文本等。通过将不同的模态... 详细信息

在深度学习盛行的今天,单一形态的数据已经不足以支持人们完成一些困难的任务,为了让人工智能在理解事物上取得进一步突破,人们利用多模态信息进行解释和推理,多模态信息指的是来自不同模态的信息,例如图像、文本等。通过将不同的模态结合起来进行综合分析和推理,可以更好地模拟人类的认知和理解方式。这种方法已经成功应用于语音识别、图像分割、自然语言处理等研究领域。本文提出了一种基于外部注意力机制的跨模态编码器表示方法CMEEA来提升模型的准确度,在视觉问答,常识问答和推理任务上表现十分优异。外部注意力编码器中的外部注意力的两个外部存储单元可以看作是整个数据集的字典以提高网络的性能,同时能够学习到更多输入的代表性特征并且降低计算成本。考虑到外部注意力具有线性复杂性,并隐含考虑所有数据样本之间的相关性,本文采用了5个预训练任务,这些任务有助于模型学习内模态和跨模态关系。本文还通过将预训练的跨模态模型应用于具有挑战性的视觉推理任务(1,展示了其泛化性,并将之前的最佳结果提高了0.1%。并且在视觉问答(VQA)上提高了1.3%。本文对多模态图像检索任务进行了研究,提出了基于外部注意力的多模态图像检索的概率组合嵌入模型EMPC。图像和文本通过外部注意力,首先由模态编码器学习概率嵌入,然后采用多种模态组合进行复合嵌入。EMPC模型通过最小化概率对比损失方法对齐文字嵌入和目标图像嵌入。EMPC在三个多模态组合的图像检索查询的R@5、R@10和R＿P分别提高了16.84%、18.84%和4.69%。本文在Flickr30k数据集上完成了弱监督多模态对齐任务,提出了基于外部注意力的弱监督多模态对齐架EMAF。通过外部注意力机制计算不同模态数据的相似度,从而将不同模态的信息“对齐”。EMAF以Res Net-101为骨干网络,Faster R-CNN为目标检测器,最终取得了优异的结果。在Flickr30k数据集上进行了评估,提高了0.8%的准确率。

关键词：深度学习预训练模型多模态模型多模态对齐外部注意力机制

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

联合知识和视觉信息推理的视觉问答研究

计算机工程与应用 2022年

作者：苏振强苟刚公共大数据国家重点实验室计算机科学与技术学院贵州大学

视觉问答作为多模态领域中的一项任务，需要对不同模态的特征进行融合推理，具有重要的应用价值。在传统视觉问答中，只需依靠图像的视觉信息，便能很好的推理出问题答案，但纯视觉信息无法满足现实场景中多样化的问答需求。知识在视觉... 详细信息

视觉问答作为多模态领域中的一项任务，需要对不同模态的特征进行融合推理，具有重要的应用价值。在传统视觉问答中，只需依靠图像的视觉信息，便能很好的推理出问题答案，但纯视觉信息无法满足现实场景中多样化的问答需求。知识在视觉问答中发挥着重要的作用，能够很好地辅助问答。基于知识的开放性视觉问答需要关联外部知识，才能实现跨模态的场景理解。为了更好地融合视觉信息和相关联的外部知识，该文提出联合知识和视觉信息推理双线性结构，设计了图像特征联合问题特征，对知识表征进行双引导的注意力模块。该模型首先利用预训练的视觉-语言模型获取问题和图像的特征表示以及视觉推理信息；其次利用相似性矩阵计算问题语义对齐下的图像对象区域；然后问题特征联合对齐后的区域特征，对知识表征进行协同引导获得知识推理信息；最后视觉推理信息和知识推理信息进行融合得到最终的答案。在开放的OK-VQA数据集上的实验结果表明，该模型的准确率相比两种基线方法分别有1.97%和4.82%的提升，从而验证了该模型的有效性。

关键词：视觉问答注意力机制特征融合多模态对齐外部知识

在线全文

同方期刊数据库

学校读者我要写书评

暂无评论

多模态深度学习综述

计算机应用研究 2020年第6期37卷 1601-1614页

作者：刘建伟丁熙浩罗雄麟中国石油大学(北京)自动化系北京102249

在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了... 详细信息

在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成以及多媒体检索等方面研究,将多模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各类问题进行子分类和论述,同时列举了为解决各类问题产生的神经网络模型。最后论述了实际多模态系统、多模态深度学习研究中常用的数据集和评判标准,并展望了多模态深度学习的发展趋势。

关键词：多模态深度学习多神经网络多模态表示多模态传译多模态融合多模态对齐

维普期刊数据库

在线全文

学校读者我要写书评

暂无评论

基于文本描述的行人重识别方法研究

基于文本描述的行人重识别方法研究

作者：丁泽锋华南理工大学

学位级别：硕士

基于文本描述的行人重识别,指的是给定特定行人的文本描述,算法模型在图像库中寻找到该行人对应的图像,它在监控领域上具有广泛的应用前景。然而,由于图像与文本间模态的异质性和文本描述的无序性,现有方法需要借助跨模态注意力操作或... 详细信息

基于文本描述的行人重识别,指的是给定特定行人的文本描述,算法模型在图像库中寻找到该行人对应的图像,它在监控领域上具有广泛的应用前景。然而,由于图像与文本间模态的异质性和文本描述的无序性,现有方法需要借助跨模态注意力操作或者额外的手工标注才能提取到对齐的跨模态局部特征,这带来了较大的计算或人力成本。此外,文本描述的质量参差不齐和形式变化剧烈导致了模型训练的波动和模型鲁棒性的降低。因此,针对以上问题,本文提出了以下几种模型和优化策略:首先,为提取到对齐的跨模态局部特征,本文提出了一个自对齐的跨模态粗粒度局部特征提取网络。与现有的方法相比,该方法无需使用跨模态注意力操作或者额外的手工标注,而是自动提取了对齐的跨模态局部特征。具体来说,由于图像中存在粗糙的人体对齐信息(行人图像中内容的顺序往往是头、上半身、下半身和脚),本文通过将图像骨干网络提取行人图像的特征图并将其水平划分为多份得到粗粒度的图像局部特征。通过将该具有粗糙对齐信息的图像局部特征作为监督信息,本文设计了单词注意力模块来提取文本中关于图像中对应部位的文本局部特征,从而实现对齐的跨模态局部特征的提取。实验结果验证了该模型的有效性和性能的优越性。其次,由于上述模型得到的局部特征为粗粒度的,本文进一步提出了自对齐的跨模态细粒度局部特征提取网络,并给出了两种实现方式。第一种为设计了一个多视角的非局部网络来建模每个模态粗粒度的局部特征间的关系,并进一步利用这个关系获得细粒度的对齐跨模态局部特征。第二种为设计一个像素注意力模块,并提出了一种交互训练的策略来引导该模块能与单词注意力模块,从而得到细粒度的对齐跨模态局部特征。实验结果验证了两种实现方式得到模型的有效性和性能的优越性。最后,本文提出了两种优化策略。针对文本质量参差不齐的问题,本文提出质量感知的排序损失。通过使用特征中心来存储每类文本的特征中心,并根据文本特征与该中心的距离的远近来衡量该文本的质量,从而减轻低质量的文本对网络训练的影响。针对文本形式变化剧烈的问题,本文提出复合排序损失。通过使用利用图像同个标签下其他图像的文本来作为该图像软注释,从而达到了增强了网络对文本形式变化的鲁棒性。实验结果验证了两种优化策略的有效性和相互兼容性。

关键词：基于文本描述的行人重识别多模态对齐多模态检索

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于文本描述的行人重识别特征提取方法研究

基于文本描述的行人重识别特征提取方法研究

作者：邵智寅华南理工大学

学位级别：硕士

基于文本的行人重识别(Re ID)的目标是通过文本描述查找感兴趣的身份的行人图像,其在安防监控领域有着广泛的应用。但是由于其任务中内部模态变化丰富且模态间差异显著,因此该任务非常具有挑战性。本文围绕模态对齐思想展开了研究,提出... 详细信息

基于文本的行人重识别(Re ID)的目标是通过文本描述查找感兴趣的身份的行人图像,其在安防监控领域有着广泛的应用。但是由于其任务中内部模态变化丰富且模态间差异显著,因此该任务非常具有挑战性。本文围绕模态对齐思想展开了研究,提出了两个方法:(1)现有方法通常忽略了两种模态之间的特征粒度差异,即视觉特征通常是细粒度的,而文本特征是粗粒度的,这是造成模态间差异的主要原因。因此,针对以上的问题,本文提出了一种基于Transformer的端到端框架,用于学习两种模态的粒度统一表示,称为LGUR。LGUR框架包含两个模块:基于词典的粒度对齐(DGA)模块和基于原型的粒度统一(PGU)模块。在DGA中,为了对齐两种模态的粒度,本文引入了一个多模态共享词典来重构视觉和文本特征。此外,DGA具有两个重要优化策略,即跨模态引导策略和以前景为中心重构策略,以促进词典的优化。在PGU中采用了一组共享的可学习原型作为查询,在粒度统一的特征空间中提取多样化且语义对齐的特征,进一步提高了性能,且具有更快的检索速度。大量的实验结果证明了该模型的有效性和优越性。(2)除此之外,在基于文本的行人重识别任务中,公共预训练任务是不可或缺的。但公共预训练和下游任务之间存在两个潜在的不一致性,可能会影响性能:i)数据不一致性。公共预训练模型中使用的通用图像/文本与下游任务中的具体人员数据存在很大的数据域差距。ii)训练不一致性。图像和文本的预训练过程是独立的,而交叉模态学习对下游任务至关重要。为解决预训练问题,本文构建了一个大规模的带文本标注的行人数据集“LUPerson-T”,其中图像的伪文本描述是借助了大规模预训练模型CLIP并通过分治合并策略自动生成的。并且使用一个简单的视觉-语言预训练框架,在预训练期间明确地对齐了图像和文本模态的特征空间。实验结果验证了该预训练数据集对下游任务的有效性。

关键词：基于文本的行人重识别多模态对齐多模态预训练

面向拍照场景整页手写作文图像的识别和评分方法

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

面向拍照场景整页手写作文图像的识别和评分方法

作者：由鸿铭哈尔滨工业大学

学位级别：硕士

伴随着智慧教育产业的不断发展,师生对于作文自动评分(AES)的需求不断涌现。一套完整的作文评分系统需要实现从文字识别到文本评分的全流程,但现有研究成果忽略了识别和评分之间的关联性,也忽略了书写质量等视觉特征对于作文评分的影响... 详细信息

伴随着智慧教育产业的不断发展,师生对于作文自动评分(AES)的需求不断涌现。一套完整的作文评分系统需要实现从文字识别到文本评分的全流程,但现有研究成果忽略了识别和评分之间的关联性,也忽略了书写质量等视觉特征对于作文评分的影响,在这其中也隐含了如何将多模态特征进行融合建模的科学问题。另一方面,现有的研究多是针对扫描的高质量图像,一套可用的评分系统还需要解决自然拍摄场景下含噪图像的文本识别问题。因此,研究并开发一套完整的作文识别评分系统具有较强的学术价值和现实意义。本文针对上述问题展开研究,主要包括如下四项内容:(1)针对拍照场景下的含噪图像矫正问题,本文首先对纸面歪曲和拍摄倾斜等噪声现象进行分析建模,将图像矫正问题抽象建模为参数优化的机器学习问题。随后,本文提出了一种基于格线检测和含参转换模型的图像矫正方法。在真实拍摄数据集上展开实验,证明了该方法对多种文字识别模型的精度均有明显提升。(2)针对整页文本识别问题,本文提出了一种基于编码器-解码器架构的文本识别方法FPRNet。本方法是一种无需文本行切分的端到端方法并针对识别的泛化性和可用性进行优化。本方法提出的基于形状重塑的降维方法可以在降低模型参数的同时更好的保持解码有序性。(3)为了在评分阶段考虑卷面书写等因素,本文将识别阶段获得的高维视觉特征融入到了基于文本的评分模型中,提出了一种基于隐式对齐的多模态特征融合方式,更好的实现了视觉特征和文本特征之间的信息互补。基于此,本文构建了一种基于多模态特征的作文评分方法并在混合数据集上验证了有效性。(4)为了增强评分系统的可解释性,本文还实现了一种基于语言学特征的多维度评分方式,从用词复杂度、谓词搭配情况、逻辑表达等维度对作文进行评价。最终达到了与基于预训练模型相近的评分精度。将上述的拍摄图像矫正、整页文字识别、多模态多维度作文评分方法串联集成,最终实现了一个面向拍照场景的作文识别评分原型系统。

关键词：手写汉字识别无切分方法自动评分系统多模态对齐