咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于跨媒体解纠缠表示学习的风格化图像描述生成 收藏

基于跨媒体解纠缠表示学习的风格化图像描述生成

A Stylized Image Caption Approach Based on Cross-Media Disentangled Representation Learning

作     者:蔺泽浩 李国趸 曾祥极 邓悦 张寅 庄越挺 LIN Ze-Hao;LI Guo-Dun;ZENG Xiang-Ji;DENG Yue;ZHANG Yin;ZHUANG Yue-Ting

作者机构:浙江大学计算机科学与技术学院 

出 版 物:《计算机学报》 (Chinese Journal of Computers)

年 卷 期:2022年第45卷第12期

页      面:2510-2527页

核心收录:

学科分类:0710[理学-生物学] 08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程] 0701[理学-数学] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金(62072399,61402403,U19B2042) 中国工程科技知识中心 数字图书馆教育部工程研究中心 中国工程科技数据和知识技术研究中心 中央高校基本科研业务费和百度人工智能课题基金资助~~ 

主  题:跨媒体 机器学习 解纠缠表示学习 风格化图像描述生成 自然语言生成 

摘      要:风格化图像描述生成的文本不仅被要求在语义上与给定的图像一致,而且还要与给定的语言风格保持一致.随着神经网络在计算机视觉和自然语言生成领域的技术发展,有关这个主题的最新研究取得了显著进步.但是,神经网络模型作为一种黑盒系统,人类仍然很难理解其隐层空间中参数所代表的风格、事实及它们之间的关系.为了提高对隐层空间中包含的事实内容和语言风格属性的理解以及增强对两者的控制能力,提高神经网络的可控性和可解释性,本文提出了一种使用解纠缠技术的新型风格化图像描述生成模型Disentangled Stylized Image Caption(DSIC).该模型分别从图像和描述文本中非对齐地学习解纠缠表示,具体使用了两个解纠缠表示学习模块——D-Images和D-Captions来分别学习图像和图像描述中解纠缠的事实信息和风格信息.在推理阶段,DSIC模型利用图像描述生成解码器以及一种特别设计的基于胶囊网络的信息聚合方法来充分利用先前学习的跨媒体信息表示,并通过直接控制隐层向量来生成目标风格的图像描述.本文在SentiCap数据集和FlickrStyle10K数据集上进行了相关实验.解纠缠表示学习的实验结果证明了模型解纠缠的有效性,而风格化图像描述生成实验结果则证明了聚合的跨媒体解纠缠表示可以带来更好的风格化图像描述生成性能,相对于对比的风格化图像描述生成模型,本文方法在多个指标上的性能提升了17%至86%.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分