检索结果-南通市图书馆

在线全文

学校读者我要写书评

暂无评论

基于双向特征金字塔的密集视频描述生成方法

中国科技论文 2024年第2期19卷 200-208页

作者：张煜杨刘茂福武汉科技大学计算机科学与技术学院武汉430065 智能信息处理与实时工业系统湖北省重点实验室(武汉科技大学) 武汉430081

针对当前方法普遍存在较为严重的细节结构信息丢失与事件间重叠的问题,提出一种基于双向特征金字塔的密集视频描述生成方法(dense video captioning with bilateral feature pyramid net,BFPVC)。BFPVC通过带有自底向上、自顶向下、横... 详细信息

针对当前方法普遍存在较为严重的细节结构信息丢失与事件间重叠的问题,提出一种基于双向特征金字塔的密集视频描述生成方法(dense video captioning with bilateral feature pyramid net,BFPVC)。BFPVC通过带有自底向上、自顶向下、横向链接3条分支的双向特征金字塔强化视频多尺度特征图,兼顾对时序信息、空间信息、语义信息的特征表示,解码器从强化后的视频特征中捕获更加全面的事件候选集,从而为对应的视频事件生成更加丰富、详尽的文本描述。在ActivityNet Captions数据集和YouCook2数据集上的实验结果表明,BFPVC与同类模型相比生成的文本描述更详细、丰富,验证了双向特征金字塔在密集视频描述领域的有效性。

关键词：密集视频描述视频描述视频理解特征金字塔自然语言处理

在线全文

学校读者我要写书评

暂无评论

密集视频描述研究方法综述

计算机工程与应用 2023年第12期59卷 28-48页

作者：黄先开张佳玉王馨宇王晓川刘瑞军北京工商大学计算机学院北京100048

密集视频描述是视频理解的重要分支之一,也是计算机视觉与自然语言处理领域交叉的热点研究方向。其主要目的是对包含丰富事件的视频进行针对内容的事件定位,并将其描述为人类日常沟通所用的自然语言。与生成单句描述文本的传统视频描述... 详细信息

密集视频描述是视频理解的重要分支之一,也是计算机视觉与自然语言处理领域交叉的热点研究方向。其主要目的是对包含丰富事件的视频进行针对内容的事件定位,并将其描述为人类日常沟通所用的自然语言。与生成单句描述文本的传统视频描述任务相比,密集视频描述的输入视频不再需要进行针对单一事件的裁剪,输出描述文本为针对视频内多个事件的描述段落。简要概述了密集视频描述方法的基本原理及存在问题,并总结了该领域主要面临的研究困难与挑战;对目前主流的密集视频描述方法,依照其对实现流程不同阶段分为基于事件建议、基于编码、基于解码、加入其他辅助模型,以及基于整体流程等五种类别,分别介绍其实现方式及优缺点;对本领域相关数据集以及评价方式进行总结,并对不同方法在相关数据集上的评价结果进行对比;简要讨论密集视频描述技术及其应用的未来发展方向。

关键词：密集视频描述视频描述视频理解计算机视觉自然语言处理

改进的密集视频描述Transformer译码算法

在线全文

学校读者我要写书评

暂无评论

计算机工程与应用 2023年

作者：杨大伟盘晓芳毛琳张汝波大连民族大学机电工程学院

针对Transformer应用于密集视频描述时，历史文本特征会对后续文本生成产生干扰，难以捕捉视频动态信息从而影响描述的连贯性和准确性。为保持上下文一致性的同时又能缓解历史文本干扰，提出改进的密集视频描述Transformer译码算法(D-Uf... 详细信息

针对Transformer应用于密集视频描述时，历史文本特征会对后续文本生成产生干扰，难以捕捉视频动态信息从而影响描述的连贯性和准确性。为保持上下文一致性的同时又能缓解历史文本干扰，提出改进的密集视频描述Transformer译码算法(D-Uformer)。该算法利用前馈神经网络(FNN)增强历史文本特征表达，通过跳跃连接构建删除冗余支路和增强补足支路，利用减法降低历史文本特征过度聚焦导致描述不准确的影响，提高模型对输入视频特征的关注度，同时，利用加法弥补特征传递过程中丢失的上下文信息，生成准确且连贯表达当前视频内容的描述语句。在ActivityNet和Charades数据集上的实验结果表明，D-Uformer算法的描述性能提升明显，与视频多样性描述网络(TDPC)相比，准确性最高提升4.816%，多样性最高提升4.167%，生成的描述不仅更贴合视频内容，且更符合人类语言习惯。

关键词：密集视频描述 Transformer网络译码前馈神经网络跳跃连接

在线全文

同方期刊数据库

学校读者我要写书评

暂无评论

密集视频描述中单词级遗忘度优化算法

大连民族大学学报 2022年第3期24卷 218-225页

作者：盘晓芳杨大伟毛琳大连民族大学机电工程学院辽宁大连116605

针对密集视频描述在文本生成过程中存在部分单词错误和缺失的问题,提出密集视频描述中单词级遗忘度优化算法(WFO)。通过调整遗忘度曲线斜率优化Transformer解码器中多头注意力输出的权重和文本序列,增强文本向量中局部语义信息的关注度... 详细信息

针对密集视频描述在文本生成过程中存在部分单词错误和缺失的问题,提出密集视频描述中单词级遗忘度优化算法(WFO)。通过调整遗忘度曲线斜率优化Transformer解码器中多头注意力输出的权重和文本序列,增强文本向量中局部语义信息的关注度,提高注意力机制对时态逻辑信息的捕捉,使生成的描述文本兼顾语句表达的准确性和单词构成的丰富性,更贴合视频内容,进而提高视频描述性能。实验结果表明,在Charades数据集上,与视频多样性描述算法相比,本文算法生成的描述语句在准确性和多样性上均有明显提升,其中准确性平均提高1.51%,多样性平均提高4.48%。

关键词：密集视频描述单词级遗忘度

在线全文

学校读者我要写书评

暂无评论

基于潜在语义增强的端到端密集视频描述

基于潜在语义增强的端到端密集视频描述

作者：崔园园中国民航大学

学位级别：硕士

密集视频描述是指以未修剪的长视频为输入,首先定位视频中包含的所有事件,包括事件的起始时间与结束时刻,最后为这些事件生成自然语言描述。该任务因其在视频监控、AI体育解说、婴儿早期教育等方面存在巨大的潜在应用价值而成为近年来... 详细信息

密集视频描述是指以未修剪的长视频为输入,首先定位视频中包含的所有事件,包括事件的起始时间与结束时刻,最后为这些事件生成自然语言描述。该任务因其在视频监控、AI体育解说、婴儿早期教育等方面存在巨大的潜在应用价值而成为近年来的热点研究方向。密集视频描述生成不仅需要对每个事件的时域动作和表观信息进行准确的建模,同时还需要考虑多个事件之间的连续性和动态交互关系,因此极具挑战性。近年来密集视频描述任务已取得显著性进展,现有的方法主要存在以下亟需解决的关键问题。第一,事件描述过程中被编码的视频特征一般基于视觉信息和简单的语义上下文信息,忽略了事件之间相似的主题特征。第二,事件定位过程中大多数方法未考虑视频中每个事件的边界信息。针对上述问题,本文开展基于潜在语义增强的端到端密集视频描述生成研究,分别基于事件描述和事件定位提出两个模型,具体工作包括:(1)提出一种潜在语义感知的密集视频描述生成模型,在事件描述过程中探索高级语义信息。模型由多尺度特征提取器、潜在主题增强表示器和提议-语言解码器构成。其中,潜在主题增强表示器旨在探索视频中的潜在主题,并生成更加连续准确的事件标题。它包含全局视觉主题发现器和面向主题关系学习器。发现器检测事件之间的相似性,获得潜在的主题级特征;学习器捕捉主题与事件间的关系,从而丰富主题信息,使融合高级语义信息的视频特征帮助模型预测出更准确丰富的自然语句。(2)提出一种事件边界增强与多特征融合的密集视频描述生成模型,分别设计了边界差异性增强算法和多特征交叉拼接融合算法。其中,边界差异性增强算法能够将事件的边界信息加以区分,并增强其注意力权重,减少其他不必要特征的干扰,改善模型的事件定位性能。多特征交叉拼接融合算法则通过将显式特征和隐式特征结合,增强模型的拟合能力,协助模型基于融合后的特征解码生成更准确、生动的自然语句描述。(3)在Activity Net Captions数据集上,本文所提潜在语义感知的密集视频描述生成模型与基准模型相比,在METEOR、BLUE4、CIDEr及SODA＿c评价指标分数分别提升0.23%、0.45%、3.13%和0.21%,并且在You Cook2数据集上的BLUE4和CIDEr指标值分别提升0.12%和1.50%。另外,与基线模型相比,所提事件边界增强与多特征融合的密集视频描述模型在Activity Net Captions数据集上的Recall、METEOR、BLUE4、CIDEr及SODA＿c指标值分别提升1.00%、0.10%、0.41%和2.28%,且在You Cook2数据集上的各项指标值与目前已提出的其他算法相比,均具有相似或更好的表现。

关键词：密集视频描述端到端潜在主题感知事件边界增强多特征融合

基于Transformer的多模态密集视频描述方法

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于Transformer的多模态密集视频描述方法

作者：南瑞环杭州电子科技大学

学位级别：硕士

密集视频描述的主要任务是从一段未经剪辑的视频中定位所有出现的事件,并为这些事件生成对应的文本描述。这一任务同时涉及了多个不同的领域,是一个典型的多模态学习任务。密集视频描述任务在视频理解、人机交互等方面有着广阔的应用前... 详细信息

密集视频描述的主要任务是从一段未经剪辑的视频中定位所有出现的事件,并为这些事件生成对应的文本描述。这一任务同时涉及了多个不同的领域,是一个典型的多模态学习任务。密集视频描述任务在视频理解、人机交互等方面有着广阔的应用前景,因此具有十分重要的研究价值。目前,密集视频描述任务的难点主要体现在两个方面:1)当前的密集视频描述方法大多缺乏有效的多模态特征交互与融合机制,使得模型难以学习到不同模态特征之间的相互关系。2)现有的密集视频描述方法通常将视频中的各事件作为一个独立的片段来进行处理,从而忽略了事件与事件之间的上下文关系,导致最终生成文本描述的连贯性与一致性遭到损害。针对这两方面问题,本文进行了以下研究:针对问题1,本文提出了基于视听融合的多模态密集视频描述方法。首先,本方法通过基于卷积增强的Transformer编码器来建模输入特征的全局和局部依赖性。然后为了更好地关注输入特征之间的联系,本方法利用共享学习字典模块自适应地学习多模态特征之间的关系,优化初始特征。最后,通过视听注意力模块对多模态特征进行融合,实现了多模态特征之间互补信息的交互与冗余信息的去除,从而生成信息更加丰富的文本描述。针对问题2,本文提出了基于视频上下文的多模态密集视频描述方法。首先,本方法提出了稀疏采样的特征提取方式来去除视频中的冗余特征,从而降低了模型的计算量。为了更好地学习视频的上下文关系,本方法利用视频上下文模块捕获不同事件在时序和语义信息上的关系进一步增强了输入特征,并加入了跨模态一致性损失函数来鼓励多模态之间的语义对齐,保证了最终生成文本的一致性与连贯性。本文提出的方法在密集视频描述数据集Activity Net Captions上进行了广泛的实验,实验结果表明,本文所提出的方法能够充分利用视频中所包含的信息,并生成较为准确的文本描述。同时,基于所提出的方法,本文设计并实现了一个面向多模态特征的密集视频描述系统。

关键词：密集视频描述多模态视听融合视频上下文 Transformer

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

视频时序动作定位和描述方法研究

视频时序动作定位和描述方法研究

作者：刘鹏飞天津理工大学

学位级别：硕士

时序动作定位任务的研究内容是识别出视频中的动作,并预测出这个动作开始和结束时间。密集视频描述任务的研究内容是使用自然语言连贯的描述视频中的多个事件。使用图卷积网络可以处理非欧式空间数据与过滤无关背景信息,因此本文使用图... 详细信息

时序动作定位任务的研究内容是识别出视频中的动作,并预测出这个动作开始和结束时间。密集视频描述任务的研究内容是使用自然语言连贯的描述视频中的多个事件。使用图卷积网络可以处理非欧式空间数据与过滤无关背景信息,因此本文使用图卷积网络的方法围绕时序动作定位和密集视频描述任务分别展开了研究。时序动作定位任务中确定事件的方法可以进一步提升密集视频描述任务的效果。在时序动作定位任务方面,本文提出了一种融合型图卷积网络。在视频中存在前景信息和背景信息,很多研究工作往往将背景信息忽略,而视频的背景信息中有一部分可以帮助预测前景信息,如打网球视频中的网球场,这种信息本文称为语义信息。本文提出的方法就是在使用时序信息的同时将语义信息保留在特征中。在实际工作中使用卷积神经网络提取视频中的时序信息特征,通过帧与帧之间的关系构建语义图,并使用图卷积网络将视频中的语义信息特征进行聚合,最终将两种特征融合在一起以提升模型对事件预测的准确性。本文在THUMOS14和Activity Net1.3数据集上进行了相关验证实验,实验的最终结果也表明本文的模型能提升对事件预测的准确性,并且在THUMOS14的m AP@0.5、m AP@0.6和m AP@0.7等指标上取得了突出的成果。在密集视频描述任务方面,本文提出了一种全信息图卷积网络。目前密集视频描述任务常用的方法是使用卷积神经网络提取视频特征,生成多个事件提议,对评分高的提议进行文字描述,这种方法忽略了可以利用的语言学信息,如单词词性、短语结构语法等,对视频生成了生硬的文字描述。对此本文使用二维卷积神经网络提取视觉信息并使用语言学信息作为输入生成字节片段,以此来增强生成语句的流畅性。针对事件提议网络本文构建了一个视觉语义候选事件生成网络,用这个网络生成过去和未来的事件候选提议,根据这些事件提议构建出一个图,使用图卷积网络对这些信息进行聚合,聚合后的特征与原来生成的特征融合输入到编码器-解码器中,最终将生成文字描述结果输出。本文在公用数据集Activity Net Captions和You Cook-II中做了大量的实验以验证本文模型的有效性,并在最新的评估指标中评估了模型的结果,在BLEU@N、METEOR、CIDEr和ROUGEL多个指标中取得了具有竞争性的结果。

关键词：深度学习时序动作定位密集视频描述图卷积网络

基于深度学习的多特征多模态视频描述方法研究

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于深度学习的多特征多模态视频描述方法研究

作者：常志天津理工大学

学位级别：硕士

随着深度学习技术的不断发展和神经网络强大的学习能力,视频描述作为一项连接计算机视觉和自然语言处理的新型跨模态任务,引起了国内外学者的广泛关注,并且取得了越来越多具有权威性的突出成果。视频描述的目标是为给定的视频片段自动... 详细信息

随着深度学习技术的不断发展和神经网络强大的学习能力,视频描述作为一项连接计算机视觉和自然语言处理的新型跨模态任务,引起了国内外学者的广泛关注,并且取得了越来越多具有权威性的突出成果。视频描述的目标是为给定的视频片段自动的生成文本描述,数据集通常是对一个短的视频片段进行标注,而密集视频描述是视频描述的一个分支,需要分析更长、更复杂的视频序列,是对一个长视频中的多个事件依次生成文本描述。本文的主要工作将围绕着视频描述和密集视频描述两个任务展开。针对视频描述,本文提出了一种基于动作推理的多特征融合方法,用于优化两个对象之间的交互预测,解决大多数方法产生的动作依赖于物体共现的弊端。本方法明确地针对动作来推理,通过对视频的二维卷积特征,三维卷积特征以及局部特征的提取与建模,捕捉更好的视觉动态,来提高对动作的识别能力,从而进一步提升描述的质量。在公开的MSVD和MSR-VTT数据集上进行了大量的对比实验,实验结果表明本模型可以成功地改善对视频动作的描述,并且在BLEU4、METEOR、CIDEr以及ROUGE-L四项指标上取得了具有竞争力的成绩。针对密集视频描述,本文提出了一种基于事件交互性的多模态融合方法,用于解决同一视频中的多个事件描述没有连续性、相关性和缺乏捕捉视频中音频信息的问题。当前密集视频描述任务的步骤是首先在一个长视频中定位出包含的事件,然后对每一个事件进行视频描述,这样就可以生成每个事件的描述,但是这样生成的描述缺乏事件之间的交互。同一个视频中的多个事件之间应该是有联系的,而不是相互独立的。针对这个问题,本文提出了事件交互性的方法,在事件定位阶段对不同的事件之间进行时序和语义上的建模,捕获不同事件之间的关系,从而生成更加一致和连续的描述。除此之外,还提取了视频的视觉和音频特征,从多模态融合的角度进一步提升描述的准确度。本文在公开的数据集中进行了充足的实验,在Activity Net数据集上达到了9.64的Meteor得分,比前沿模型MDVC提升了31.8%,取得了可与当前最新模型竞争的性能。

关键词：深度学习视频描述多特征融合密集视频描述多模态融合

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

面向人机交互的意图识别方法研究

面向人机交互的意图识别方法研究

作者：李兰婷东北师范大学

学位级别：硕士

意图识别作为对话系统的核心模块之一,其主要作用是基于用户话语判断对话中的真实意图。准确识别用户意图对于实现有效、流畅的人机对话至关重要。然而自然人机交互场景的复杂性和人类意图表达方式的灵活多样性,给意图识别领域带来了巨... 详细信息

意图识别作为对话系统的核心模块之一,其主要作用是基于用户话语判断对话中的真实意图。准确识别用户意图对于实现有效、流畅的人机对话至关重要。然而自然人机交互场景的复杂性和人类意图表达方式的灵活多样性,给意图识别领域带来了巨大挑战。现有的意图识别研究大多局限于简单、直接的显式意图识别,缺乏对用户深层语义信息的充分理解,进而影响人机交互体验。此外,在复杂场景下,用户意图在单一模态下往往难以完整表达,因此基于单一文本模态的意图识别应用场景有限。针对以上问题,本文分别从文本和多模态两个视角开展用户意图识别的研究。具体研究内容包括以下三个部分:(1)构建了一个跨领域中文隐式意图识别数据集CIID(Chinese Implicit Intent Dataset)。本文基于社交媒体平台数据构建了用户隐式意图识别数据集。该数据集包含7种常见的人机交互意图,总计5042条标注数据,数据内容均为包含用户隐式意图的文本。以往的研究较少涉及用户隐式意图识别,因此缺乏相应的开源数据集,但其对于实现更加智能、自然的人机交互具有重要意义。因此,本文提出的数据集能在一定程度上推动隐式意图识别的研究与发展。(2)提出了一种基于提示学习的隐式意图识别方法。本文首次将提示学习应用于隐式意图识别领域,该方法通过构造合适的自然语言提示模板,使模型能够充分挖掘话语中隐含的语义信息。提出的方法在CIID数据集上进行了实验评估,与通用预训练语言模型BERT、BART和T5-pegasus相比,本文提出模型的识别准确率分别提高了1.6%、1%、0.8%,F1分数分别提高了1.7%、0.9%、0.7%,达到了目前最优的实验结果。为进一步证明提出方法的有效性,本文在另一个公开的中文意图识别数据集CAIS上进行实验评估,与其他先进工作相比,本文提出的方法表现出一定优势,识别准确率达到95.73%。此外,本文还探究了低资源设置下模型的识别效果,实验结果表明该模型具有良好的小样本学习能力。(3)为解决单一模态下意图识别效果受限的问题,本文提出一种注入解释的多模态行为意图识别方法。该方法利用T5模型作为骨干网络,对视频和文本两种模态特征进行充分学习融合,并且以完形填空的形式生成用户行为意图。为了帮助模型更好地理解视频信息,为意图识别提供更加丰富的语义线索,本文利用PDVC(Parallel Decoding Video Captioning)模型生成密集视频描述并将其作为辅助文本共同输入到模型中进行训练。该方法在WHYACT数据集上进行实验评估,实验结果表明本文提出模型的F1分数超过了单模态与多模态基线模型,验证了提出方法的有效性。

关键词：隐式意图识别提示学习多模态意图识别 T5模型密集视频描述