检索结果-南通市图书馆

维普期刊数据库

基于跨模态交互的车辆监控视频片段检索技术研究

在线全文

学校读者我要写书评

暂无评论

基于跨模态交互的车辆监控视频片段检索技术研究

作者：王琴华南理工大学

学位级别：硕士

根据国家全面提升公共安全保障的要求,监控视频是新形势下维护社会安全、预防和打击违法犯罪行为的重要手段。近年来,各地积极推进监控视频系统建设,利用视频监控系统充分挖掘车辆记录、检测车辆行为的发生时间,可以节省处理交通肇事案... 详细信息

根据国家全面提升公共安全保障的要求,监控视频是新形势下维护社会安全、预防和打击违法犯罪行为的重要手段。近年来,各地积极推进监控视频系统建设,利用视频监控系统充分挖掘车辆记录、检测车辆行为的发生时间,可以节省处理交通肇事案件的时间、提高事故发生后车辆追责效率,在智慧交通、公安侦查等方面有着广阔的应用前景。然而,目前传统监控视频检索仍采用人工浏览的方式,耗时巨大并且处理速度慢。另一方面,随着人工智能技术的发展和应用,通过计算机理解视频内容并利用不受限制的文本进行查询检索是未来发展的方向。如何从高度冗余的车辆监控视频中高效准确地挖掘和提取所需要的关键片段是跨模态车辆监控视频片段检索的核心问题。针对上述问题,本文深入研究了基于跨模态交互的车辆监控视频片段检索技术,从检索精度、数据标注、系统实现三个方面开展研究工作,主要内容如下:(1)为了解决现有方法未能充分挖掘视频和文本中富含的语义信息的问题,本文提出了一种基于特征重构的跨模态视频片段检索模型。该模型利用图卷积神经网络探索查询文本中不同层次语义之间的拓扑关系,挖掘潜在的关键信息,从而重构文本特征;然后利用文本的引导作用,加强视频中与文本语义相关的视觉特征,抑制无关视觉特征,对视频特征进行重新构建;最后对两种模态进行融合,实现跨模态视频片段检索。在公开数据集上的实验表明,该模型能够有效提升跨模态视频片段检索的准确率。(2)为了解决训练样本不足、数据集人工标注耗时的问题,本文提出了一种基于无监督域适应的跨模态视频片段检索模型。该模型通过最大均值差异度量不同域之间的分布差异,学习视频样本内以及视频样本间的域不变特征,缩小源域和目标域之间的领域差异,将在已有的大规模数据集上学习到的标注知识迁移至目标领域,从而实现在目标数据集上的视频片段检索。在公开数据集上的实验表明,该模型能够有效地迁移不同领域的知识,与未使用无监督域适应的模型相比具有较高性能的提升。(3)为了实现跨模态视频片段检索模型在车辆监控视频数据上的应用,本文首先在多个场景下采集车辆监控视频,构建车辆监控视频数据集,验证所提出的方法在车辆监控视频数据集上的有效性。然后按照系统开发的需求,设计并实现了跨模态车辆监控视频片段检索系统,为跨模态视频片段检索在车辆监控领域的发展提供了应用价值。

关键词：智慧交通视频监控片段检索车辆行为检索跨模态交互

基于多模态融合和跨模态交互的遥感图像语义分割研究

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于多模态融合和跨模态交互的遥感图像语义分割研究

作者：何金波安徽大学

学位级别：硕士

随着遥感图像拍摄技术和机载平台的快速发展,大量高分辨率的遥感图像更容易获得,遥感图像场景解析更是渗透到人类的生活中。比如:道路检测,灾害预测,环境监测,土地规划,农作物规划,水域面积计算等。在这些领域中,计算机视觉技术可以帮... 详细信息

随着遥感图像拍摄技术和机载平台的快速发展,大量高分辨率的遥感图像更容易获得,遥感图像场景解析更是渗透到人类的生活中。比如:道路检测,灾害预测,环境监测,土地规划,农作物规划,水域面积计算等。在这些领域中,计算机视觉技术可以帮助人类解析高分辨率遥感图像中的场景,提高对地表物体的识别能力。语义分割技术作为计算机视觉任务中热门研究方向,在遥感图像场景解析任务中扮演着重要的角色。近年来,基于深度学习的全卷积神经网络在图片识别的任务中取得了显著的成绩,更推动了高分辨率遥感图像研究的进展。单模态高分辨率遥感图像语义分割任务往往面临着前景光谱特征相似,阴影遮挡,类别分布不均匀的挑战。在这极具挑战的场景中,单模态数据往往不能提供丰富多样的信息,模型在分割精度上往往难以取得比较好的结果。针对遥感图像语义分割中面临的挑战,本文重点研究多模态遥感图像语义分割任务上,主要聚集以下两个方面的内容:(1)针对在复杂场景中,单模态遥感图像在面对前景光谱特征相似,阴影遮挡,类别分布不均匀的挑战时,不能提供丰富多样的信息。本文提出了基于类别级融合和增强学习的多模态遥感图像语义分割方法,针对前景光谱特征相似的挑战,通过类别级特征融合模块解耦特征融合过程,并且不需要依赖大规模的数据集。针对类别分布不均匀的挑战,本文设计了类别级增强学习模块,对比例小的样本施加更加大的权重。实验结果表明,本文提出的方法可以最大限度的利用多模态的数据克服遥感图像的挑战,提升语义分割的精度。(2)针对光学遥感图像容易受到光照,颜色干扰,同时源域和目标域由于拍摄时间,拍摄地点,拍摄镜头不同,域间差异比较大,给单模态遥感图像的无监督域适应语义分割任务带来了比较大的挑战。本文提出基于跨模态交互的无监督域适应语义分割方法,利用遥感图像DSM(数字地表模型)中的高程信息,作为源域和目标域上的公共数据,缩小源域和目标域的差异。同时,本文提出RGB诱导细节增强模块,通过低层的RGB特征来增强和补充深度模态的特征。本文另外提出的深度图诱导语义增强模块,通过高级编码器阶段的深度模态丰富RGB语义特征。实验结果表明,跨模态交互无监督域适应遥感图像语义分割算法可以拉近源域和目标域之间的差异,同时在目标域上取得比较好的结果。

关键词：遥感图像语义分割卷积神经网络多模态无监督域适应跨模态交互

基于双通道注意力机制的多尺度指代目标分割方法

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

计算机辅助设计与图形学学报 2024年

作者：胡梦楠王蓉张文靖张琪中国人民公安大学信息网络安全学院山东警察学院治安系山东警察学院社会治安与应急管理研究中心

针对指代分割任务中视觉和语言间缺乏充分的跨模态交互、不同尺寸的目标空间和语义信息存在差异的问题，提出了基于双通道注意力机制的多尺度指代目标分割方法. 首先，利用语言表达中不同类型的信息关键词来增强视觉和语言特征的跨模... 详细信息

针对指代分割任务中视觉和语言间缺乏充分的跨模态交互、不同尺寸的目标空间和语义信息存在差异的问题，提出了基于双通道注意力机制的多尺度指代目标分割方法. 首先，利用语言表达中不同类型的信息关键词来增强视觉和语言特征的跨模态对齐，并使用双通道注意力机制捕捉多模态特征间的依赖性，实现模态间和模态内的交互; 其次，利用语言特征作为引导，从其他层次的特征中聚合与目标相关的视觉信息，进一步增强特征表示; 然后利用双向ConvLSTM以自下而上和自上而下的方式逐步整合低层次的空间细节和高层次的语义信息; 最后，利用不同膨胀因子的空洞卷积融合多尺度信息，增加模型对不同尺度分割目标的感知能力. 此外，在UNC， UNC+， GRef和ReferIt基准数据集上进行实验，实验结果表明，文中方法的oIoU指标在UNC上提高了1.81%，在UNC+上提高了1.26%，在G-Ref上提高了0.84%，在ReferIt上提高了0.32%，广泛的消融研究也验证了所提方法中各组成部分的有效性.

关键词：指代目标分割跨模态交互特征增强注意力机制多尺度融合

在线全文

同方期刊数据库

学校读者我要写书评

暂无评论

基于交叉模态注意力特征增强的医学视觉问答

计算机工程 2024年

作者：刘凯任洪逸李蓥季怡刘纯平苏州大学计算机科学与技术学院

医学视觉问答需要对医学图像内容与问题文本内容进行理解与结合，因此设计有效的模态表征及跨模态的融合方法对医学视觉问答任务的表现至关重要。目前，医学视觉问答方法通常只关注医学图像的全局特征以及单一模态内注意力分布，忽略了... 详细信息

医学视觉问答需要对医学图像内容与问题文本内容进行理解与结合，因此设计有效的模态表征及跨模态的融合方法对医学视觉问答任务的表现至关重要。目前，医学视觉问答方法通常只关注医学图像的全局特征以及单一模态内注意力分布，忽略了图像的局部特征所包含的医学信息与跨模态间的交互作用，从而限制了图像内容理解。针对以上问题，本文提出了一种交叉模态注意力特征增强的医学视觉问答模型（Cross-Modal Attention-Guided Medical VQA，CMAG-MVQA）。该方法首先基于U-Net编码有效增强图像局部特征；其次，从交叉模态协同角度，提出选择引导注意力方法，为单模态表征引入其他模态的交互信息；同时，再利用自注意机制进一步增强选择引导注意力的图像表征。在VQA-RAD医学问答数据集上的消融与对比实验表明，提出方法在医学视觉问答任务上有良好的表现，相比于现有同类方法，提出方法在特征表征有较好改善。

关键词：跨模态交互注意力机制医学视觉问答特征融合特征增强

在线全文

同方期刊数据库

学校读者我要写书评

暂无评论

红外与可见光图像自注意力融合方法研究

红外与可见光图像自注意力融合方法研究

作者：杨帆太原科技大学

学位级别：硕士

红外与可见光图像融合的目的是整合两种源图像各自的互补信息,从而生成视觉效果更好的融合图像。传统融合方法通常依据特定的特征提取模块和人为设定的融合规则得到有效的融合信息。但受性能提高与计算成本的影响,传统融合方法模型通常... 详细信息

红外与可见光图像融合的目的是整合两种源图像各自的互补信息,从而生成视觉效果更好的融合图像。传统融合方法通常依据特定的特征提取模块和人为设定的融合规则得到有效的融合信息。但受性能提高与计算成本的影响,传统融合方法模型通常比较复杂且耗时,极大地限制了其实际应用。同时,人工设计的融合策略计算复杂度较高且单一,缺乏对不同源图像特征提取的自适应变化,无法达到理想的融合效果。基于深度学习的方法通常采用图像级或特征级融合框架统一或单独提取特征,忽略了跨域特征间的交互信息学习,无法达到理想的融合效果。为此,论文以红外、可见光图像为研究对象,以卷积神经网络和Transformer相结合为技术手段,研究了红外与可见光图像自注意力融合方法,主要研究内容如下:（1）针对现有Transformer方法仅采用图像级或特征级融合框架,未考虑跨模态信息交互导致融合性能低的问题,提出了红外与可见光图像交互自注意力融合方法。首先,设计了协同CNN-Transformer的融合网络结构,利用Transformer将CNN提取的局部特征聚合为全局特征,提高了特征表征能力。其次,构建了跨模态注意力交互模块,设计了级联的Token-Vi T和Channel-Vi T,分别从不同空间和独立通道之间实现两类图像的特征交互。同时,在TNO,M3FD,Roadscene三个公开数据集上进行了主客观实验,与其他典型融合方法比较,所提方法在融合性能、鲁棒性和计算效率等方面都有着明显的优势。（2）针对现有Transformer方法未考虑图像跨模态跨域特征交互的问题,提出了红外与可见光图像双域自注意力交互融合方法。首先,设计了多尺度CNN-Transformer交替学习的融合网络框架,该框架可以交替地结合局部和全局关系。其次,在内域和跨域中,采用空间自注意力机制和通道注意力机制,实现空间位置和独立通道之间的特征交互。同时,构建了内域特征校正模块来修正不同特征以实现高效编码,构建了跨域特征融合模块来融合互补特征以实现多级解码。最后,放弃了位置编码,以实现自适应图像融合。在TNO,M3FD和Roadscene数据集上,与其他融合方法进行主客观比较,并对后续目标检测和语义分割的下游任务进行了对比,表明融合方法的优越性。

关键词：图像融合深度学习 Vision Transformer 自注意力机制跨模态交互

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于自然语言的视频片段定位综述

计算机科学 2022年第9期49卷 111-122页

作者：聂秀山潘嘉男谭智方刘新放郭杰尹义龙山东建筑大学计算机科学与技术学院济南250101 山东大学软件学院济南250100

自然语言视频定位(Natural Language Video Localization, NLVL)是一项新颖而富有挑战性的任务。该任务的目的是根据给定的查询文本从未修剪的视频中找到与这条查询文本语义最为相似的目标片段。与传统的时序动作定位任务不同,NLVL具有... 详细信息

自然语言视频定位(Natural Language Video Localization, NLVL)是一项新颖而富有挑战性的任务。该任务的目的是根据给定的查询文本从未修剪的视频中找到与这条查询文本语义最为相似的目标片段。与传统的时序动作定位任务不同,NLVL具有更强的灵活性,因为它不受预定义动作列表的限制;同时也更具挑战性,因为NLVL需要从视频和文本两种模态间对齐语义信息。此外,在对齐关系中获取最终的时间戳也是一个艰巨的任务。首先,描述了NLVL的流程;其次,根据是否有监督信息将NLVL算法分为监督方法和弱监督方法两大类并分析其优缺点;然后,总结了常用的数据集和评估指标,对现有的研究进行了总体性能的评估和分析;最后,讨论了技术难点及未来的研究趋势,为今后的工作提供参考。

关键词：多模态检索视频片段定位视频理解跨模态对齐跨模态交互

维普期刊数据库

在线全文

学校读者我要写书评

暂无评论

基于音视频特征融合的情感识别方法研究

重庆理工大学学报（自然科学） 2022年第1期36卷 120-127页

作者：帖云程慧杰靳聪李小兵齐林郑州大学信息工程学院郑州450001 中国传媒大学信息与通信工程学院北京100024 中央音乐学院北京100031

传统的视频情感识别工作主要集中在面部表情、人体的动作行为等,忽略了场景和对象中包含大量的情感线索及不同对象之间的情感关联。因此,提出了一个基于视觉关系推理和跨模态信息学习的音视频特征融合网络模型用于预测视频情感。模型主... 详细信息

传统的视频情感识别工作主要集中在面部表情、人体的动作行为等,忽略了场景和对象中包含大量的情感线索及不同对象之间的情感关联。因此,提出了一个基于视觉关系推理和跨模态信息学习的音视频特征融合网络模型用于预测视频情感。模型主要包括三部分:对象间的情感关系推理、声学特征提取、跨模态交互融合。首先,采用Mask R-CNN模型提取出包含物体的区域并提取出相应的特征序列,利用图注意力网络对视频帧中的不同区域之间的情感关联进行推理,找到视频帧中的关键区域;然后,利用双向长短时记忆网络提取对数梅尔频谱片段的帧级上下文信息,对视觉信息进行补充;最后,将多头注意力机制应用到跨模态交互融合模块中去学习不同模态信息之间的隐藏关联,并将利用跨模态注意得到的音视频特征利用门控神经网络进行融合。所提出的模型在数据集Video Emotion-8和Ekman上具有较好的精确度。

关键词：情感识别情感关系推理跨模态交互图卷积神经网络多头注意力机制

维普期刊数据库

在线全文

学校读者我要写书评

暂无评论

基于自然语言的视频时刻检索算法研究

基于自然语言的视频时刻检索算法研究

作者：平申湖南大学

学位级别：硕士

随着社交网络和移动通信技术的飞速发展,人们能够在任何时间、任何地点拍摄并上传各种视频。与文本和静态图像相比,视频传达的信息更加丰富。然而,随着视频时长的不断增长,人们希望能够在视频中快速定位到自己感兴趣的片段,视频时刻检... 详细信息

随着社交网络和移动通信技术的飞速发展,人们能够在任何时间、任何地点拍摄并上传各种视频。与文本和静态图像相比,视频传达的信息更加丰富。然而,随着视频时长的不断增长,人们希望能够在视频中快速定位到自己感兴趣的片段,视频时刻检索任务应运而生。视频时刻检索,旨在依据用户输入的自然语言文本,在未修剪的长视频中检索特定的动作片段,并返回其开始与结束时间。该技术可应用于视频监控系统、智能安防系统、视频创作等领域。作为视觉与文本领域的跨模态任务,如何建立不同模态间的语义桥梁一直是学术界的研究热点。本文分析了现有视频时刻检索方法的不足,并提出了新的模态交互与信息融合机制。本文的研究内容主要包括:(1)针对视频中存在的噪声干扰,以及现有方法独立学习模态内与模态间关系的不足,本文提出了基于跨模态交互的视频时刻检索方法。该方法设计了一个查询引导的通道注意力模块,自适应地学习帧与单词之间的注意力分数,利用每一帧对应的句级查询特征过滤视频中与查询无关的视觉特征,并增强重要的内容。随后通过交叉注意力模块联合建模视频和文本的模态内和模态间关系,使得模态内上下文信息与模态间交互关系互相补充,得到更具有辨识度的表征。(2)针对复杂的视频场景与检索文本,单步对齐的方法难以准确检索目标片段的问题,本文提出了基于迭代对齐的视频时刻检索方法。该方法设计了一个新颖的迭代交互模块,采用迭代对齐策略逐步对齐视频和文本语义。每个迭代模块包括多头注意力层、校准层、卷积层以及高光层。通过堆叠迭代交互模块,模型可以深度挖掘视频与文本间的交互信息、逐步校准视频与文本特征、分辨相邻帧之间的细微区别、并重点关注目标片段中的关键帧与文本中的关键词。最后,该方法通过上下文查询注意力再度融合视觉与文本特征,提升模型检索精度。文中提出的方法,在两个公开数据集Charades-STA和TACo S上进行了验证。实验结果证明了本工作中所提方法的有效性。

关键词：视频时刻检索模态内与模态间关系跨模态交互注意力机制

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

多源图像的显著性目标检测算法研究

多源图像的显著性目标检测算法研究

作者：吴然万东北石油大学

学位级别：硕士

多源图像的显著性目标检测(如:RGB-D和RGB-T显著性目标检测)是近年来计算机视觉领域中的研究热点之一,旨在利用多模态数据(如:RGB图像和深度图像或RGB图像和热红外图像)在给定区域中识别出最显著的目标。其中,多源数据是对同一场景的不... 详细信息

多源图像的显著性目标检测(如:RGB-D和RGB-T显著性目标检测)是近年来计算机视觉领域中的研究热点之一,旨在利用多模态数据(如:RGB图像和深度图像或RGB图像和热红外图像)在给定区域中识别出最显著的目标。其中,多源数据是对同一场景的不同表征方式,多模态数据之间既存在着共同性也存在着差异性。因此如何实现不同模态信息之间的有效交互以及提高特征的利用率,这对于增强显著性目标检测的性能至关重要。此外,近邻层特征之间存在着一定的相似性,如何有效地利用近邻层特征之间的互补特性来深入挖掘显著性目标的关键线索也是亟待探索的重要问题。本文围绕上述问题,针对RGB-D和RGB-T显著性目标检测任务,分别设计了不同的算法模型。针对RGB-D显著性目标检测中多模态信息交互不充分的问题,本文提出了一种跨模态分层交互网络(HINet),该网络主要包括两个模块:跨模态信息交互(CIE)模块和渐进式引导的多层特征融合(PGF)模块。具体来说,CIE模块用于学习跨模态特征的共享表示以及学习有利于区别不同模态特征的有益反馈。此外,PGF模块基于高级特征融合来引导低级特征融合的机制,采用反向引导策略逐步聚合分层特征,从而提高显著性目标的检测性能。本文提出的模型在五个具有挑战性的基准数据集上优于现有的9种先进的算法模型,且通过大量消融实验证明了本文所提出的两个模块的有效性。针对RGB-T显著性目标检测任务,本文提出了一种新的并行对称网络(PSNet),旨在关注如何聚合来自两种模态的关键显著性线索,以增强显著特征的表示,从而产生准确的显著目标检测结果。具体而言,本文首先开发了级联聚合模块(CAM),该模块充分积累和挖掘来自两种不同模态的有价值的显著性语义特征,通过级联基于残差的增强单元来强化特征表示。接着,本文设计了一个并行对称融合(PSF)模块,以并行和对称的方式集成来自相邻层的关键显著性特征,生成显著性预测图。此外,为了充分利用多层次特征,本文引入了一种引导策略,该策略利用低层次特征增强显著性预测图的细节信息,以提高显著目标检测的精度。本文提出的模型在三个具有挑战性的基准数据集上显著优于现有的15种先进的模型。此外,本文将所提的模型应用在RGB-D显著性目标检测任务中,同样取得了优异的性能,这也证明了所提出算法具有较强的通用性和鲁棒性。

关键词： RGB-D显著性目标检测 RGB-T显著性目标检测跨模态交互多层融合