检索结果-南通市图书馆

基于视觉语言模型的跨模态多级融合情感分析方法

在线全文

学校读者我要写书评

暂无评论

模式识别与人工智能 2024年第5期37卷 459-468页

作者：谢润锋张博超杜永萍北京工业大学信息学部北京100124

图文多模态情感分析旨在通过融合视觉模态和文本模态预测情感极性,获取高质量的视觉模态表征和文本模态表征并进行高效融合,这是解决图文多模态情感分析任务的关键环节之一.因此,文中提出基于视觉语言模型的跨模态多级融合情感分析方法... 详细信息

图文多模态情感分析旨在通过融合视觉模态和文本模态预测情感极性,获取高质量的视觉模态表征和文本模态表征并进行高效融合,这是解决图文多模态情感分析任务的关键环节之一.因此,文中提出基于视觉语言模型的跨模态多级融合情感分析方法.首先,基于预训练的视觉语言模型,通过冻结参数,采用低阶自适应方法微调语言模型的方式,生成高质量的模态表征和模态桥梁表征.然后,设计跨模态多头互注意力融合模块,分别对视觉模态表征和文本模态表征进行交互加权融合.最后,设计混合专家网络融合模块,将视觉、文本的模态表征和模态桥梁表征结合后进行深度融合,实现多模态情感分析.实验表明,文中方法在公开评测数据集MVSA-Single和HFM上达到SOTA.

关键词：视觉语言模型多模态融合多头注意力混合专家网络情感分析

在线全文

学校读者我要写书评

暂无评论

基于视觉语言模型的无人艇环境感知技术研究

基于视觉语言模型的无人艇环境感知技术研究

作者：李一杰华中科技大学

学位级别：硕士

随着智能硬件与人工智能技术的发展,越来越多的任务转而由各种先进的机器代替人工进行实现,其中水面无人艇有望在未来代替人类发挥重要作用。无人艇在提高工作效能的同时降低人力成本,其中水面无人艇的环境感知能力是其执行任务的前提... 详细信息

随着智能硬件与人工智能技术的发展,越来越多的任务转而由各种先进的机器代替人工进行实现,其中水面无人艇有望在未来代替人类发挥重要作用。无人艇在提高工作效能的同时降低人力成本,其中水面无人艇的环境感知能力是其执行任务的前提和基础。本文针对现有水面环境感知工作在现实开放场景中使用伴随的一系列问题,创新性引入自然语言文本信息作为监督信号,通过视觉语言训练模型的方式缓解水面无人艇环境感知技术在现实场景中的局限性。本文的详细内容如下:针对现有水面环境感知方法在现实水面场景中的泛化与适应能力不足的问题,本文提出引入视觉语言训练模型的开放场景水面零样本图像分类技术,并设计一系列模型微调技术以提升在具体场景下的泛化能力与鲁棒性。通过实验证明了在具体数据集场景中的模型性能与泛化性提升,以及现实场景中的任意目标类别的图像分类能力。针对现有无人艇水面场景感知中的目标检测技术只能做到闭集类别检测,并且对于不同的场景下存在泛化性较差的问题,本文提出了新的开放世界水面目标检测技术,相较于知识蒸馏的方式,本文直接利用视觉语言模型作为检测模型的一部分,以更加简洁优雅的方式实现了在现实水面场景中的任意目标类别的检测。通过实验证明了在多个检测数据集下的有效性,以及泛化性与鲁棒性提升,弥补了现有水面环境目标感知技术的不足。针对水面开放场景中模型在训练集域外泛化类别检测性能较差的问题,本文提出通过半监督学习的方式提升域外泛化类别的检测性能,引入视觉语言模型与区域建议网络作为生成器,利用大量无标注数据进行伪标签生成,进一步帮助检测模型进行训练。通过实验证明了在多个检测数据集下的有效性与实用性,并且伪标签生成器与检测器解耦,因此生成的伪标签数据可以利用到任意的检测器当中。

关键词：无人艇深度学习视觉语言模型目标检测识别半监督学习

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于显著图加权视觉语言模型的图像分类方法

计算机工程 2015年第3期41卷 204-210页

作者：王挺进赵永威李弼程信息工程大学信息系统工程学院郑州450002

传统基于视觉语言模型(VLM)的图像分类方法在参数估计阶段,通常采用最大似然估计的方式统计视觉单词的分布,忽略了图像背景噪声对该模型参数估计的影响。为此,提出一种新的图像分类方法。利用基于视觉注意的显著性检测算法提取图像中的... 详细信息

传统基于视觉语言模型(VLM)的图像分类方法在参数估计阶段,通常采用最大似然估计的方式统计视觉单词的分布,忽略了图像背景噪声对该模型参数估计的影响。为此,提出一种新的图像分类方法。利用基于视觉注意的显著性检测算法提取图像中的显著区域和背景区域,构建的图像带有显著图标识的视觉文档,训练视觉单词的显著度权重和条件概率,并使用显著图加权视觉语言模型进行图像分类。实验结果表明,与传统VLM等方法相比,该方法能有效克服图像背景噪声的影响,增强视觉单词的区分性,提高分类准确率。

关键词：图像信息视觉语言模型图像分类背景区域显著图

在线全文

学校读者我要写书评

暂无评论

基于视觉语言模型的图像语义挖掘研究

图书情报工作 2013年第5期57卷 120-123页

作者：金聪刘金安金枢炜华中师范大学计算机学院武汉大学物理科学与技术学院

针对图像的特性,给出一种图像的二元视觉语言模型,在此基础上提出一种新的图像语义挖掘方法。该方法将每幅图像表示成一个由视觉单词构成的矩阵,通过计算每个视觉单词的权重,按照权重的大小对视觉单词进行选择,利用选择后的视觉单词集合... 详细信息

针对图像的特性,给出一种图像的二元视觉语言模型,在此基础上提出一种新的图像语义挖掘方法。该方法将每幅图像表示成一个由视觉单词构成的矩阵,通过计算每个视觉单词的权重,按照权重的大小对视觉单词进行选择,利用选择后的视觉单词集合,构建图像的视觉语言模型;之后,按照贝叶斯公式,建立基于视觉语言模型的图像语义挖掘方法。实验结果表明,该方法在图像语义描述能力和区分性方面是有效的,能充分反映人对图像内容的理解,具有很好的应用价值。

关键词：视觉语言模型图像语义语义挖掘性能优化

基于视觉语言模型的蒙古文古籍图像检索技术研究

在线全文

学校读者我要写书评

暂无评论

基于视觉语言模型的蒙古文古籍图像检索技术研究

作者：郭星内蒙古大学

学位级别：硕士

随着数字化技术的发展,在内蒙古自治区,越来越多的蒙古文古籍被转成数字图像,以便长久保存。但是以图像格式保存的古籍文档没有索引信息,无法实现全文检索,因此制约了古籍文献资料的传播与利用。本文关注蒙古文古籍图像检索技术,这为挖... 详细信息

随着数字化技术的发展,在内蒙古自治区,越来越多的蒙古文古籍被转成数字图像,以便长久保存。但是以图像格式保存的古籍文档没有索引信息,无法实现全文检索,因此制约了古籍文献资料的传播与利用。本文关注蒙古文古籍图像检索技术,这为挖掘与利用蒙古文古籍提供便利。在图像检索领域,视觉词袋模型是近年来图像检索中最常使用的模型。然而视觉词袋模型有两个缺陷:一是视觉单词之间缺乏语义信息,这导致人对图像的相似性判别与计算机之间存在差异,也就是著名的"语义鸿沟"问题;二是视觉单词之间相互独立,忽略了相邻视觉单词之间的空间信息。本文针对这两个缺陷,提出了解决方法,具体如下:(1)针对视觉词袋模型中视觉单词之间缺少语义信息的问题,提出了视觉语言模型。首先,将扫描得到的蒙古文《甘珠尔经》图像切割成独立的单词图像。其次,从每个单词图像中提取局部描述子(即:视觉单词),并将单词图像表示成视觉单词的概率分布。其中,平滑策略被用于处理零概率问题。再次,根据给定的查询单词图像,采用查询似然模型计算查询单词图像与待检索单词图像间的相似度。最终,按照相似度降序可以生成一个单词图像列表,作为检索结果。(2)我们将视觉单词的空间信息和语义信息相结合,提出了空间视觉语言模型用于表示单词图像。首先,将每个单词图像沿着行、列方向划分为多个等大小的子区域。根据蒙古文的书写方式,我们确定了一种适合于蒙古文单词图像的子区域划分方式。其次,在每个子区域中分别构建视觉语言模型。然后,在单词图像匹配过程中,只有对应子区域的视觉语言模型进行相似度计算。最终,将这些子区域间相似度求和得到两个单词图像的相似度。

关键词：蒙古文古籍文本图像检索视觉词袋模型视觉语言模型空间金字塔

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于视觉语言提示学习的少样本图像分类方法

北京邮电大学学报 2024年第2期47卷 11-17页

作者：李宝安王欣宇滕尚志吕学强北京信息科技大学网络文化与数字传播北京市重点实验室北京100101

为了提高少样本图像分类的性能和泛化能力,充分利用大规模视觉语言预训练模型,提出了一种高效处理少样本图像分类问题的方法。首先,在文本编码部分,整合多个可学习的文本提示,充分挖掘图像类别标签在提示语句中不同位置对模型泛化性能... 详细信息

为了提高少样本图像分类的性能和泛化能力,充分利用大规模视觉语言预训练模型,提出了一种高效处理少样本图像分类问题的方法。首先,在文本编码部分,整合多个可学习的文本提示,充分挖掘图像类别标签在提示语句中不同位置对模型泛化性能的影响;其次,在图像编码部分,引入可学习的视觉提示,使图像预训练参数能更好地表征少样本图像;最后,在图像和文本特征编码器后添加特征适配器,并在图像分类数据集上微调网络,以提升网络在少样本图像分类数据集上的性能。在10个公开数据集上进行了大量实验,结果表明,相较于现有方法,所提方法在单样本分类的平均准确度上提高了2.9%。

关键词：提示学习视觉语言模型少样本学习图像分类预训练模型

在线全文

学校读者我要写书评

暂无评论

N步长距离视觉语言模型的图像分类方法

信息工程大学学报 2014年第4期15卷 453-458,465页

作者：王挺进赵永威李弼程信息工程大学河南郑州450001

传统的视觉语言模型(visual language model,VLM)只考虑了相邻视觉单词之间的空间位置关系,不考虑不相邻视觉单词之间的贡献。针对传统视觉语言模型的不足,提出了一种N步长距离视觉语言模型,并将其用于图像分类。该方法首先给出了相隔N... 详细信息

传统的视觉语言模型(visual language model,VLM)只考虑了相邻视觉单词之间的空间位置关系,不考虑不相邻视觉单词之间的贡献。针对传统视觉语言模型的不足,提出了一种N步长距离视觉语言模型,并将其用于图像分类。该方法首先给出了相隔N个视觉单词的二元依赖关系,然后训练长距离视觉语言模型,最后通过不同的权重分配方式进行融合,得到3种不同的图像分类方法。实验比较了不同参数和分类方法对图像分类的影响,结果表明,文章方法能在一定程度上改善视觉语言模型对图像表达的准确度,进而提高图像分类的准确率。

关键词：视觉语言模型图像分类空间位置信息长距离

在线全文

学校读者我要写书评

暂无评论

句法依存关系指导的视觉语言融合模型研究

句法依存关系指导的视觉语言融合模型研究

作者：张知奇湖南工业大学

学位级别：硕士

人类学习本质上是多模态的,因为联合利用多种感官有助于更好地理解和分析新信息。理所当然地,视觉语言模态学习从人类最为关键的视觉和语言两种模态融合学习过程的有效性中汲取灵感,在具有挑战性的任务中表现出了让人眼前一亮的能力,诸... 详细信息

人类学习本质上是多模态的,因为联合利用多种感官有助于更好地理解和分析新信息。理所当然地,视觉语言模态学习从人类最为关键的视觉和语言两种模态融合学习过程的有效性中汲取灵感,在具有挑战性的任务中表现出了让人眼前一亮的能力,诸如跨模态检索、图像描述生成、文本引导图像生成以及视觉问答等各种实际应用。经典的视觉语言模型结构都有文本嵌入(Textual Embed,TE)、视觉嵌入(Visual Embed,VE)、模态融合(Modality Interaction,MI)三大部分。大量的研究集中在TE、VE、MI的关系上,主要是对单模态表征能力和双模态交互能力的取舍。论文主要关注TE的性能优化,认定当前的TE方式不够细腻,存在诸多语义提取不够的问题,具体表现为语义歧义、长距离语义消失、情感语义薄弱等三大关键科学问题,为此针对上述问题展开探究。论文的研究动机是:提出主宾依存方向用以排歧,提出主谓依存距离用于抓准核心语义,提出谓语依存强度用以放大增强情感词的embedding生成效果,最终实现了对图文模态的精确推理和精确对齐,提供快速、准确的图文跨模态检索的功能。其具体贡献如下:第一,针对BERT双向注意力无法确定谓语的真实动作方向而导致的歧义问题,提出基于主宾依存方向指导的视觉语言融合模型。首先,在对语言模态句法分析的基础上构建句法依存有向无环图,提出主宾依存方向这一核心定义,具体采用依存图中的依存弧来表示谓语动作方向,使得无歧语义注入到embedding中,从而最终达到排歧的目的。实验结果表明,图文跨模态检索任务的召回率,与业界SOTA方法COTS相比,R@10提高了2.25%,经消融实验测定,提升的精度与主宾依存方向有紧密关系。第二,针对在长难文本中全局注意力难以捕捉基于词间距离的主谓关系而导致的语义消失问题,提出基于主谓依存距离指导的视觉语言融合模型。通过对语言模态分析句法依存关系,从而构建句法层次树,提出主谓依存距离这一核心定义,具体采用句法层次树中的边数来表示。与词间距离相比较而言,依存距离更为科学且合理,能准确把握长句子中的核心主谓语义。实验结果表明,在保证检索召回率不变的情况下,节省了大约25%的检索时间,在处理长难文本时,效果尤为明显。第三,针对BERT仅仅学习上下文缺乏对词性重点标注而导致的情感语义理解能力薄弱问题,提出基于谓语依存强度指导的视觉语言融合模型。提出谓语依存强度这一核心定义,通过词性+词义+依存关系等多方面综合计算依存强度。具体做法是重点标注词性用以辅助放大模型对关键情感语义的权重,生成的embedding中饱含情感词前后重要的情感修饰语义。实验结果表明,对比其它视觉语言融合模型,模型整体的召回率更高,对含有情感倾向的文本检索结果更为精确。同时,不同的依存关系和词性具有不同的依存强度,其中,冠词修饰关系和限定词的依存强度最小。

关键词：跨模态检索视觉语言模型句法依存关系文本嵌入

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于视觉语言的文字识别方法综述

北京印刷学院学报 2024年第6期32卷 35-43页

作者：陈曦陆利坤王彤曾庆涛北京印刷学院北京102600

从光学字符识别(OCR)的基础到自然语言处理在文字识别中的应用,再到视觉语言模型在文字识别领域的最新进展,详细介绍了文字识别的各个步骤,包括图像预处理、特征提取、字符分割和识别,并讨论了多种先进技术和模型如对比学习、多模态融合... 详细信息

从光学字符识别(OCR)的基础到自然语言处理在文字识别中的应用,再到视觉语言模型在文字识别领域的最新进展,详细介绍了文字识别的各个步骤,包括图像预处理、特征提取、字符分割和识别,并讨论了多种先进技术和模型如对比学习、多模态融合,以及其他视觉语言模型结合的文字识别方法。此外,还比较了不同方法在多个数据集上的性能,并讨论了文字识别领域面临的挑战和限制。

关键词：光学字符识别自然语言处理对比学习多模态融合视觉语言模型