基于多模态图和对抗哈希注意力网络的跨媒体细粒度表示学习
Cross-Media Fine-Grained Representation Learning Based on Multi-modal Graph and Adversarial Hash Attention Network作者机构:北京邮电大学计算机学院(国家示范性软件学院)智能通信软件与多媒体北京市重点实验室北京100876
出 版 物:《模式识别与人工智能》 (Pattern Recognition and Artificial Intelligence)
年 卷 期:2022年第35卷第3期
页 面:195-206页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家重点研发计划项目(No.2018YFB1402600) 国家自然科学基金项目(No.61877006,62192784) 中国人工智能学会-华为MindSpore学术奖励基金项目(No.S2021264)资助
主 题:跨媒体表示学习 对抗哈希注意力网络 细粒度表示学习 跨媒体协同注意力机制 跨媒体搜索
摘 要:跨媒体数据搜索中不同媒体类型的数据间存在特征异构和语义鸿沟问题,且社交网络数据往往呈现语义稀疏性、多样性等特性.针对上述问题,文中提出基于多模态图和对抗哈希注意力网络的跨媒体细粒度表示学习模型,获取统一的跨媒体语义表示,应用于社交网络跨媒体搜索.首先,构建图像-单词关联图,并基于图随机游走策略挖掘图像和文本单词间直接语义关联和隐含语义关联,实现语义关系扩展.然后,构建基于跨媒体协同注意力机制的跨媒体细粒度特征学习网络,通过互相指导的跨媒体注意力机制协同学习图像和文本的细粒度语义关联.最后,构建跨媒体对抗哈希网络,联合跨媒体细粒度语义关联学习和对抗哈希学习,获取高效紧凑的跨媒体统一哈希语义表示.实验表明,文中模型在两个公开标准跨媒体数据集上均取得较优的跨媒体搜索性能.