检索结果-南通市图书馆

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于跨模态语义对齐的视频时刻检索研究

基于跨模态语义对齐的视频时刻检索研究

作者：王公勉电子科技大学

学位级别：硕士

随着互联网技术的繁荣和视频技术的发展,视频内容正被越来越多的人们所青睐。每天,世界上都有大量的视频被拍摄、剪辑,并上传到互联网上。由于视频内容每天都在指数级地增长,研究人员越来越多地关注于使用视频检索技术来处理大量的视频... 详细信息

随着互联网技术的繁荣和视频技术的发展,视频内容正被越来越多的人们所青睐。每天,世界上都有大量的视频被拍摄、剪辑,并上传到互联网上。由于视频内容每天都在指数级地增长,研究人员越来越多地关注于使用视频检索技术来处理大量的视频信息。随着视频时长的增加,人们希望可以从较长的视频中检索出与文本最为对应的视频片段,这就引出了视频时刻检索这个任务。视频时刻检索是根据给定的文本,从一段长视频中,找到与该文本语义最为对应的一个片段,并返回该片段的开始时间和结束时间。这个任务还有助于完成其他的视频任务,如视频问答、视频描述生成和视频定位等。目前主流的视频时刻检索方法主要由以下三个阶段组成:多模态特征提取、跨模态融合和视频时刻定位。在多模态特征提取过程中,视频特征和文本特征被分别提取。随后,不同模态的特征进行跨模态融合,得到融合特征。最后,融合特征被送入视频时刻定位网络,生成最终的视频时刻检索结果。虽然该流程被证明能有效的进行视频时刻检索,但仍存在着很大的改进空间。比如,跨模态融合不够充分,同一视频片段中多个动作会产生相互干扰,视频表征过于粗糙等。基于以上问题,本文以该流程为基础,分别针对不同视频时刻检索的不同问题,提出了以下两种不同的改进算法以提升视频时刻检索的效果。针对不同模态的特征融合不够充分,以及视频中多个动作的干扰问题,本文提出了基于跨模态动态网络的视频时刻检索方法。该方法根据文本和视频特征,创新性地动态生成卷积网络的卷积核,使用跨模态的特征引导卷积。同时,该方法还使用了一种新颖的序列帧注意力机制,来捕捉同一个视频片段中的不同动作特征,从而减少同一片段中不同动作之间相互造成的干扰。这两种机制在推断过程中,均不会带来显著的计算量的增加,且有效地提高了视频时刻检索的性能。针对视频表征过于粗糙的问题,本文还提出了基于语义增强物体推理网络的视频时刻检索方法。不同于传统的视频特征,该方法使用了物体级别的视觉特征,结合语义信息来推测不同物体之间的关系,从而理解视频内容。并且,该方法使用了一个新的时序平移机制,来避免不对齐的物体所带来的干扰。本文所提出的方法,在公开的Charades-STA和TACo S数据集上进行了实验。实验结果表明,相较于已有的方法,本文所提出的方法在多个指标上都达到了具有竞争力的性能。

关键词：视频时刻检索视频理解跨模态对齐时刻定位

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于自然语言的视频片段定位综述

计算机科学 2022年第9期49卷 111-122页

作者：聂秀山潘嘉男谭智方刘新放郭杰尹义龙山东建筑大学计算机科学与技术学院济南250101 山东大学软件学院济南250100

自然语言视频定位(Natural Language Video Localization, NLVL)是一项新颖而富有挑战性的任务。该任务的目的是根据给定的查询文本从未修剪的视频中找到与这条查询文本语义最为相似的目标片段。与传统的时序动作定位任务不同,NLVL具有... 详细信息

自然语言视频定位(Natural Language Video Localization, NLVL)是一项新颖而富有挑战性的任务。该任务的目的是根据给定的查询文本从未修剪的视频中找到与这条查询文本语义最为相似的目标片段。与传统的时序动作定位任务不同,NLVL具有更强的灵活性,因为它不受预定义动作列表的限制;同时也更具挑战性,因为NLVL需要从视频和文本两种模态间对齐语义信息。此外,在对齐关系中获取最终的时间戳也是一个艰巨的任务。首先,描述了NLVL的流程;其次,根据是否有监督信息将NLVL算法分为监督方法和弱监督方法两大类并分析其优缺点;然后,总结了常用的数据集和评估指标,对现有的研究进行了总体性能的评估和分析;最后,讨论了技术难点及未来的研究趋势,为今后的工作提供参考。

关键词：多模态检索视频片段定位视频理解跨模态对齐跨模态交互

维普期刊数据库

同方期刊数据库评论

在线全文

学校读者我要写书评

暂无评论

无模态融合的高效弱监督视频时刻检索算法

北京航空航天大学学报 2023年

作者：蒋寻徐行沈复民王国庆杨阳电子科技大学计算机科学与工程学院

弱监督视频时刻检索旨在基于视频与自然语言文本的匹配关系训练深度学习算法模型，以实现根据自然语言查询文本从未经修剪的视频中检索特定事件内容的起始与结束时间。大多数现有的弱监督视频时刻检索方法采用多模态融合机制来理解视频... 详细信息

弱监督视频时刻检索旨在基于视频与自然语言文本的匹配关系训练深度学习算法模型，以实现根据自然语言查询文本从未经修剪的视频中检索特定事件内容的起始与结束时间。大多数现有的弱监督视频时刻检索方法采用多模态融合机制来理解视频内容以完成时刻检索。然而，由于完成模态融合所需要的跨模态交互十分复杂看，且只有在明确收到用户的查询指令后才能推进模态融合，限制了现有方法的运行效率，降低了该项技术在多媒体应用中的实用性。针对以上问题，提出了一种可实现快速弱监督视频时刻检索的无融合多模态对齐算法，称为FMAN。该方法可以将复杂的跨模态交互计算全部限制在训练阶段，从而允许模型对视频数据和文本数据都进行离线编码，显著提高了视频时刻检索的推理速度。在Charades-STA数据集和ActivityNet-Captions数据集上的实验结果表明，FMAN所取得的检索性能与效率都优于现有的方法：对于衡量检索性能的指标R1召回率和R5召回率，在Charades-STA数据集上，本方法分别平均取得了2.66%和1.57%的性能提升；在ActivityNet-Captions数据集上，本方法分别平均取得了0.19%和3.35%的性能提升；在检索效率上，所提出的方法将在线每秒浮点运算次数降低至原有方法的1%以下。

关键词：视频时刻检索弱监督学习媒体内容检索模型效率跨模态对齐

同方期刊数据库评论

在线全文

同方期刊数据库

学校读者我要写书评

暂无评论

基于时空关系增强的视频检索技术研究

基于时空关系增强的视频检索技术研究

作者：石楚豪湖南大学

学位级别：硕士

随着数字媒体技术的不断发展和普及,多模态数据已成为人们日常生活中最主要的信息来源。然而,随着数据量的急剧增加,如何在不同模态间快速、精准地检索相关信息已成为一个迫切需要解决的问题。跨模态文本视频检索技术旨在根据用户的查... 详细信息

随着数字媒体技术的不断发展和普及,多模态数据已成为人们日常生活中最主要的信息来源。然而,随着数据量的急剧增加,如何在不同模态间快速、精准地检索相关信息已成为一个迫切需要解决的问题。跨模态文本视频检索技术旨在根据用户的查询文本,检索出与之语义最匹配的视频。这种技术在视频搜索、智能监控和社交娱乐等领域都有着重要的作用。近年来,跨模态视频检索的研究在深度学习的推动下取得了迅猛发展。且最近的研究已验证了基于图的局部时空关系建模的优越性。但现有方法仍存在几大挑战。首先,大多数现有的基于图的模型严重依赖于外部的专家知识和经验反馈。其次,视频包含动态多样的时序信息,在局部细节中包含更丰富的细粒度信息。这些动态交互增加了捕捉细粒度时空关系的难度。最后,时空关系建模中包含大量碎片化的噪声。这些噪声会影响捕捉关键上下文信息,从而极大地干扰视频主体之间的关系建模。为了解决这些挑战,本文从视频时空关系建模这一角度对视频检索任务进行研究,提出了一种新的跨模态检索模型。该模型基于Transformer结构,通过结合局部时空关系和全局时序信息,以互补的方式有效弥补文本和视频之间的模态差异。首先,本文模型通过多个Transformer层和额外的残差连接对局部对象进行编码得到局部视频特征,以学习细粒度时空关系和长期时间依赖。接着,利用多层Transformer来进一步探索全局时间信息,以获取全局时间特征。最后为了涵盖不同层次的语义,在两个嵌入子空间内将时空关系特征和全局时序特征与文本特征分别进行匹配,从而实现跨模态文本视频检索。本文提出的模型在MSR-VTT、MSVD和You Cook2三个基准数据集上进行了大量实验。实验结果表明,所提出的模型在公认的评估指标上超过了同期最先进的模型(MSR-VTT 1k-A test上的R@10达到86.7%),验证了本文模型的有效性。在上述研究的基础上,本文基于Flask框架设计了跨模态视频检索系统,并在系统上实现了本文提出的检索模型,进一步验证了模型的实用性。

关键词：跨模态检索细粒度时空关系跨模态对齐

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

一种基于时序损失的语音驱动面部运动方法

计算机科学与应用 2023年第12期13卷 2521-2527页

作者：王振凯王承伟张一帆李昊渊河北地质大学信息工程学院河北石家庄

语音驱动3D面部运动的研究主要聚焦于拓展多说话人的3D面部运动数据以及获取高质量音频特征上,但采集3D面部运动数据往往需要高昂的成本和繁琐的标注流程,单一说话人的少量数据样本又会导致模型因为数据的稀疏性难以获取高质量音频特征... 详细信息

语音驱动3D面部运动的研究主要聚焦于拓展多说话人的3D面部运动数据以及获取高质量音频特征上,但采集3D面部运动数据往往需要高昂的成本和繁琐的标注流程,单一说话人的少量数据样本又会导致模型因为数据的稀疏性难以获取高质量音频特征。针对该问题,论文从时间序列任务中获得启发,将可微动态时间规整(Smoothed formulation of Dynamic Time Warping, Soft-DTW)应用到语音特征与面部网格(Mesh)顶点的跨模态对齐中。经过实验表明,采用Soft-DTW作为损失函数在生成面部动画的唇形吻合度方面相较于使用均方误差(Mean Squared Error, MSE)时有所提高,可以合成更高质量的面部动画。

关键词：语音驱动跨模态对齐面部动画 Soft-DTW

维普期刊数据库评论

在线全文

维普期刊数据库

学校读者我要写书评

暂无评论

指称表达的研究进展与发展趋势

中国基础科学 2022年第3期24卷 10-17页

作者：牛凯孙梦阳索伟王鹏西北工业大学计算机学院西安710129 西北工业大学网络空间安全学院西安710129

指称表达是近年来蓬勃发展的新兴研究方向,也是视觉—语言交互领域中具有代表性的研究任务。其主要研究内容为:在对自然语言及视觉图像中的属性、位置、关系等上下文信息充分理解的基础上,通过跨模态的交互及推理,依据自然语言描述,准... 详细信息

指称表达是近年来蓬勃发展的新兴研究方向,也是视觉—语言交互领域中具有代表性的研究任务。其主要研究内容为:在对自然语言及视觉图像中的属性、位置、关系等上下文信息充分理解的基础上,通过跨模态的交互及推理,依据自然语言描述,准确完成图像区域的指称决策。该任务的有效解决对计算机的感知能力、推理能力和多模态信息融合能力等均提出了更高的要求,具有重要的研究价值;同时在人机交互、自动驾驶、智能家居等众多现实情景中均具备广阔的应用前景。本文旨在对近年来指称表达任务的研究进展及未来趋势进行综述和分析。介绍该任务的研究背景及研究内容,列举常用的数据集和评价指标,重点对国内外近几年的研究进展进行归纳与总结,分析国内该领域的研究现状及特点,对其未来的发展方向进行讨论与展望。

关键词：视觉—语言交互指称表达跨模态对齐关系推理

基于图学习和对抗训练的视觉常识推理方法研究与实现

维普期刊数据库

同方期刊数据库评论

在线全文

学校读者我要写书评

暂无评论

基于图学习和对抗训练的视觉常识推理方法研究与实现

作者：吴明言哈尔滨工业大学

学位级别：硕士

人工智能发展至今,从能存会算,到能看会认、能听会说,已经历了计算智能、感知智能两个阶段,并正朝着能理解、会思考的认知智能阶段迈进。当前,计算机视觉系统已经能够可靠地执行识别层次的任务,认知层次的推理任务正逐渐受到研究者们的... 详细信息

人工智能发展至今,从能存会算,到能看会认、能听会说,已经历了计算智能、感知智能两个阶段,并正朝着能理解、会思考的认知智能阶段迈进。当前,计算机视觉系统已经能够可靠地执行识别层次的任务,认知层次的推理任务正逐渐受到研究者们的关注。跨媒体智能作为国家人工智能发展战略的五大基石之一,亦是成为研究的焦点。跨媒体推理立足跨媒体智能和认知智能的交叉领域,将被应用于各种场景中,并且已经在一些方向上取得了重大突破。本文首先研究了深度学习模型如何在视觉常识推理任务取得良好的性能以及直观的可解释性。针对现有方法在捕捉图像模态和文本模态的联系时仅考虑视觉区域与文本单词之间单一关联而无法适用于蕴含高阶语义的任务这一问题,本文提出了一种层级语义融合模块。它通过发掘模态间多层次的隐式语义联系,使得模型能够获得更加精确的跨模态语义对齐,为执行全面的认知推理提供更加细粒度的特征表示。针对现有方法在完成推理过程不可解释的问题,本文提出了一种方向信息增强的图推理网络,在该推理网络中,设计了一种基于注意力的激活信号机制。模型可以利用该机制在每一个推理步中自适应地选择有价值的实体,从而生成可解释的推理过程。针对现有的视觉和语言模型在运用到视觉常识推理任务时,可能由于标注数据不足而引发过拟合的问题,提出了一种多模态对抗训练算法。通过在视觉区域和文本单词的嵌入空间中引入对抗扰动,令模型在训练时同时学习对抗扰动向量以及自身的参数。对比传统的对抗训练方法,本文提出的多模态对抗训练算法更加灵活。通过将对抗训练技术运用到视觉和语言任务中,以提升模型的鲁棒性。最后,本文在视觉常识推理基准数据集上设计实验并与当前最先进的方法进行比较,实验结果以及定性分析表明了本文所提方法的有效性。

关键词：视觉常识推理跨模态对齐图学习可解释性多模态对抗训练

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于自编码器的零样本图像分类

基于自编码器的零样本图像分类

作者：崔碧莹天津大学

学位级别：硕士

大数据时代,随着深度学习算法在计算机视觉领域的不断发展,图像分类技术也取得了巨大的进步。监督学习依赖于庞大的有标注图像实现对模型的训练,然而对现实世界中数以万计的图像进行标注需要耗费极高的人力和时间成本。即便如此,某些稀... 详细信息

大数据时代,随着深度学习算法在计算机视觉领域的不断发展,图像分类技术也取得了巨大的进步。监督学习依赖于庞大的有标注图像实现对模型的训练,然而对现实世界中数以万计的图像进行标注需要耗费极高的人力和时间成本。即便如此,某些稀缺类别仍缺少足够的样本用来支撑训练。为此,受到人类具备根据描述识别出未见类别能力的启发,研究人员提出一种无需对新类别的标注样本进行训练即可完成对新类别分类的零样本学习(Zero-Shot Learning,ZSL)技术来应对标签缺失的问题。这种技术通过对有标注的可见类样本进行训练,借助可见类和未见类的辅助语义信息完成视觉特征和类别语义特征之间的跨模态对齐,从而实现知识从可见类到未见类的迁移。本文基于不同的跨模态对齐方式,提出两种基于自编码器的模型结构来完成零样本图像分类任务。首先,针对广义零样本图像分类任务下的将未见类别样本错分到可见类的分类偏差问题,利用自编码器构造了一种简单而有效的未见类原型学习(Unseen Prototype Learning,UPL)模型,实现从类别语义原型直接学习相应的视觉原型。通过对所学视觉原型的三元组约束和语义重构,提高了视觉原型的判别能力。此外,受到元学习(Meta-Learning)思想的启发,本方案采用基于episode的训练机制,通过多个任务对零样本学习的模仿,使UPL模型为学习到更具判别力的视觉原型积累了充分的经验,从而更好地实现从可见类到未见类的知识迁移,有效缓解了分类偏差问题。最后,在多个主流数据集上验证了方法的有效性。其次,本文从分类损失函数的角度出发,基于分类所得负标签同样蕴含有用信息的假设,提出了一种基于软目标的半监督分类(Soft Target Semi-Supervised Classification,STS2C)模型。该模型将语义空间作为自编码器的潜在空间,完成跨模态的信息对齐和重构,引入从互联网或其他数据集收集的辅助数据,用半监督学习的方式加强了模型对未见类别的知识迁移能力和泛化能力,缓解了域偏移的问题。为收集负标签所蕴含的信息,寻找错分类和正确标签的类间关系,在利用softmax函数计算分类交叉熵损失函数时,本方案借鉴知识蒸馏的思想提出对softmax函数加入高温蒸馏参数,放大错分类结果信息熵的贡献度,使得模型更加鲁棒。最后,所提方法在多个主流数据集上证明了方法的先进性。

关键词：零样本学习图像分类元学习自编码器跨模态对齐半监督学习

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

面向视频片段语义检索的多层推理模型研究

面向视频片段语义检索的多层推理模型研究

作者：刘岱宗华中科技大学

学位级别：硕士

视频理解是计算机视觉中一项基础且重要的领域,近年来其由于如视频摘要分析等多种应用场景的需求而受到越来越多的关注。其中,视频检索任务因为拥有丰富的语义知识和复杂的背景干扰而仍存在大量难点,无法实现较大的突破。为了深入研究... 详细信息

视频理解是计算机视觉中一项基础且重要的领域,近年来其由于如视频摘要分析等多种应用场景的需求而受到越来越多的关注。其中,视频检索任务因为拥有丰富的语义知识和复杂的背景干扰而仍存在大量难点,无法实现较大的突破。为了深入研究这个问题,基于文本语义的视频片段检索（Temporal Sentence Grounding in Videos,TSGV）被提出,在该任务中,模型要根据一段句子的语义信息从一个视频中检索出与之对应的视频片段。目前,大多数方法都是采用单步的跨模态注意力机制来实现视频和文本特征的语义对齐,但这类单步弱注意监督不足以捕捉复杂的视频文本内容从而无法达到高阶的跨模态语义关系推理。与此同时,这些方法缺少对视频和文本两种模态内部自相关性的学习,无法更好地辅助跨模态信息的交互。本篇论文主要研究了TSGV任务目前存在的难点问题,针对单步注意力机制的弱监督性问题和自模态内部有效特征的学习问题,提出了一种全新的带矫正-调制机制的多层推理网络（Multi-Step Rectification-Modulation Network,MRMN）。首先,考虑到文本和视频中复杂的时间关联性往往需要多步匹配推理才能得到,本文提出了一种多层推理框架来逐步检索出两种模态间最为匹配的语义信息,其主要思想在于通过多次注意力效果的叠加操作来实现更精确的视频文本语义信息对齐。其中,考虑到任意一层注意力错误都会影响到后续层注意力的判断问题,本文基于门控制方法在多层推理框架上设计了一种注意力矫正模块（Rectification Module）来实现注意力机制的实时纠错功能。此外,学习每个模态内部的元素关联性也很重要。关联从属于相同动作语义的元素和区分从属于不同动作语义的元素将会大幅度提高视频片段检索的精准度。因此本文在多层推理过程中考虑跨模态交互的同时,也分别考虑了视频和文本模态自身元素相关性的学习,通过融合自模态交互和跨模态交互达到细粒度更高的语义匹配。其中,考虑到相同的输入视频可能包含不同待检索的文本片段,为了针对不同的文本信息提取视频帧之间的不同相关性,本文额外设计了一种调制模块（Modulation Module）来实现自模态相关性的学习约束。最后,本文基于双仿射机制（Biaffine Mechanism）设计了一种全新的片段检索模块,并分别在三个具有挑战性的数据集（ANet-Captions、Charades-STA和TACo S）上对所提出的模型MRMN进行训练和测试,以验证网络的性能效果。实验结果证明,MRMN方法在三个数据集上都优于其它的现有模型。消融实验和可视化实验也分别验证了MRMN方法中的每个模块的有效性以及可解释性。

关键词：视频片段检索跨模态对齐注意力机制多层推理