咨询与建议

限定检索结果

文献类型

  • 6 篇 学位论文
  • 4 篇 期刊文献

馆藏范围

  • 10 篇 电子文献
  • 0 种 纸本馆藏

日期分布

学科分类号

  • 10 篇 工学
    • 7 篇 机械工程
    • 4 篇 计算机科学与技术...
    • 1 篇 仪器科学与技术
    • 1 篇 控制科学与工程
    • 1 篇 生物医学工程(可授...

主题

  • 10 篇 跨模态对齐
  • 2 篇 视频时刻检索
  • 2 篇 视频理解
  • 1 篇 视觉常识推理
  • 1 篇 视觉—语言交互
  • 1 篇 跨模态检索
  • 1 篇 时刻定位
  • 1 篇 自编码器
  • 1 篇 元学习
  • 1 篇 弱监督学习
  • 1 篇 跨模态交互
  • 1 篇 图学习
  • 1 篇 soft-dtw
  • 1 篇 多模态检索
  • 1 篇 媒体内容检索
  • 1 篇 指称表达
  • 1 篇 零样本学习
  • 1 篇 半监督学习
  • 1 篇 视频片段检索
  • 1 篇 注意力机制

机构

  • 2 篇 电子科技大学
  • 1 篇 华中科技大学
  • 1 篇 山东大学
  • 1 篇 山东建筑大学
  • 1 篇 河北地质大学
  • 1 篇 湖南大学
  • 1 篇 天津大学
  • 1 篇 西北工业大学
  • 1 篇 哈尔滨工业大学
  • 1 篇 中南大学

作者

  • 1 篇 潘嘉男
  • 1 篇 牛凯
  • 1 篇 刘岱宗
  • 1 篇 吴明言
  • 1 篇 李昊渊
  • 1 篇 尹义龙
  • 1 篇 孙梦阳
  • 1 篇 王国庆
  • 1 篇 王公勉
  • 1 篇 聂秀山
  • 1 篇 索伟
  • 1 篇 崔碧莹
  • 1 篇 沈复民
  • 1 篇 蒋寻
  • 1 篇 唐晟
  • 1 篇 徐行
  • 1 篇 刘新放
  • 1 篇 王振凯
  • 1 篇 张一帆
  • 1 篇 王鹏

语言

  • 10 篇 中文
检索条件"主题词=跨模态对齐"
10 条 记 录,以下是1-10 订阅
排序:
基于多尺度注意力和跨模态对齐的医学报告生成
基于多尺度注意力和跨模态对齐的医学报告生成
收藏 引用
作者: 唐晟 中南大学
学位级别:硕士
医学报告的自动生成是基于人工智能和自然语言处理等技术的一项重要研究领域。医学报告在临床诊疗过程中起着至关重要的作用,它记录了医生对患者进行的诊断和治疗的结果,并提供了后续医疗决策的依据。因此,医学报告自动生成技术的发展... 详细信息
来源: 同方学位论文库 同方学位论文库 评论
基于模态语义对齐的视频时刻检索研究
基于跨模态语义对齐的视频时刻检索研究
收藏 引用
作者: 王公勉 电子科技大学
学位级别:硕士
随着互联网技术的繁荣和视频技术的发展,视频内容正被越来越多的人们所青睐。每天,世界上都有大量的视频被拍摄、剪辑,并上传到互联网上。由于视频内容每天都在指数级地增长,研究人员越来越多地关注于使用视频检索技术来处理大量的视频... 详细信息
来源: 同方学位论文库 同方学位论文库 评论
基于自然语言的视频片段定位综述
收藏 引用
计算机科学 2022年 第9期49卷 111-122页
作者: 聂秀山 潘嘉男 谭智方 刘新放 郭杰 尹义龙 山东建筑大学计算机科学与技术学院 济南250101 山东大学软件学院 济南250100
自然语言视频定位(Natural Language Video Localization, NLVL)是一项新颖而富有挑战性的任务。该任务的目的是根据给定的查询文本从未修剪的视频中找到与这条查询文本语义最为相似的目标片段。与传统的时序动作定位任务不同,NLVL具有... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
模态融合的高效弱监督视频时刻检索算法
收藏 引用
北京航空航天大学学报 2023年
作者: 蒋寻 徐行 沈复民 王国庆 杨阳 电子科技大学计算机科学与工程学院
弱监督视频时刻检索旨在基于视频与自然语言文本的匹配关系训练深度学习算法模型,以实现根据自然语言查询文本从未经修剪的视频中检索特定事件内容的起始与结束时间。大多数现有的弱监督视频时刻检索方法采用多模态融合机制来理解视频... 详细信息
来源: 同方期刊数据库 同方期刊数据库 评论
基于时空关系增强的视频检索技术研究
基于时空关系增强的视频检索技术研究
收藏 引用
作者: 石楚豪 湖南大学
学位级别:硕士
随着数字媒体技术的不断发展和普及,多模态数据已成为人们日常生活中最主要的信息来源。然而,随着数据量的急剧增加,如何在不同模态间快速、精准地检索相关信息已成为一个迫切需要解决的问题。模态文本视频检索技术旨在根据用户的查... 详细信息
来源: 同方学位论文库 同方学位论文库 评论
一种基于时序损失的语音驱动面部运动方法
收藏 引用
计算机科学与应用 2023年 第12期13卷 2521-2527页
作者: 王振凯 王承伟 张一帆 李昊渊 河北地质大学信息工程学院 河北 石家庄
语音驱动3D面部运动的研究主要聚焦于拓展多说话人的3D面部运动数据以及获取高质量音频特征上,但采集3D面部运动数据往往需要高昂的成本和繁琐的标注流程,单一说话人的少量数据样本又会导致模型因为数据的稀疏性难以获取高质量音频特征... 详细信息
来源: 维普期刊数据库 维普期刊数据库 评论
指称表达的研究进展与发展趋势
收藏 引用
中国基础科学 2022年 第3期24卷 10-17页
作者: 牛凯 孙梦阳 索伟 王鹏 西北工业大学计算机学院 西安710129 西北工业大学网络空间安全学院 西安710129
指称表达是近年来蓬勃发展的新兴研究方向,也是视觉—语言交互领域中具有代表性的研究任务。其主要研究内容为:在对自然语言及视觉图像中的属性、位置、关系等上下文信息充分理解的基础上,通过模态的交互及推理,依据自然语言描述,准... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
基于图学习和对抗训练的视觉常识推理方法研究与实现
基于图学习和对抗训练的视觉常识推理方法研究与实现
收藏 引用
作者: 吴明言 哈尔滨工业大学
学位级别:硕士
人工智能发展至今,从能存会算,到能看会认、能听会说,已经历了计算智能、感知智能两个阶段,并正朝着能理解、会思考的认知智能阶段迈进。当前,计算机视觉系统已经能够可靠地执行识别层次的任务,认知层次的推理任务正逐渐受到研究者们的... 详细信息
来源: 同方学位论文库 同方学位论文库 评论
基于自编码器的零样本图像分类
基于自编码器的零样本图像分类
收藏 引用
作者: 崔碧莹 天津大学
学位级别:硕士
大数据时代,随着深度学习算法在计算机视觉领域的不断发展,图像分类技术也取得了巨大的进步。监督学习依赖于庞大的有标注图像实现对模型的训练,然而对现实世界中数以万计的图像进行标注需要耗费极高的人力和时间成本。即便如此,某些稀... 详细信息
来源: 同方学位论文库 同方学位论文库 评论
面向视频片段语义检索的多层推理模型研究
面向视频片段语义检索的多层推理模型研究
收藏 引用
作者: 刘岱宗 华中科技大学
学位级别:硕士
视频理解是计算机视觉中一项基础且重要的领域,近年来其由于如视频摘要分析等多种应用场景的需求而受到越来越多的关注。其中,视频检索任务因为拥有丰富的语义知识和复杂的背景干扰而仍存在大量难点,无法实现较大的突破。为了深入研究... 详细信息
来源: 同方学位论文库 同方学位论文库 评论