咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于正反上下文语义对齐融合的多模态文本摘要模型 收藏

基于正反上下文语义对齐融合的多模态文本摘要模型

Multi-Modal Text Summarization by Positive and Negative Context Alignment and Fusion

作     者:陈中峰 陆振宇 荣欢 CHEN Zhongfeng;LU Zhenyu;RONG Huan

作者机构:南京信息工程大学人工智能学院江苏南京210044 

出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)

年 卷 期:2024年第38卷第4期

页      面:108-119页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金(U20B2061,62102187) 江苏省自然科学基金(基础研究计划)(BK20210639) 

主  题:多模态文本摘要 多模态信息对齐 二级门控编码机制 文本生成模型 

摘      要:该文基于序列到序列的神经网络,提出了使用文本语义信息和图片语义信息对多模态文本摘要生成任务进行建模。具体而言,使用文本一级编码器和带有图片信息指导的二级门控编码器对多模态语义信息进行编码,对齐文本与图片的语义信息。通过多模态正向注意力机制与反向注意力机制多方面观察对齐后的源文本与图片内容,分别得到各自模态语义信息的正相关和不相关特征表示。使用正向滤波器过滤正向注意力机制中的不相关信息,使用反向滤波器过滤反向注意力机制中的相关信息,达到分别从正向与反向两个方面选择性地融合文本语义信息和图片语义信息的目的。最后基于指针生成网络,使用正相关信息搭建正向指针、使用不相关信息搭建反向指针,生成带有多模态语义信息补偿的文本摘要内容。在京东中文电子商务数据集上,所提模型生成的多模态文本摘要在ROUGE-1、ROUGE-2、ROUGE-L指标上分别取得了38.40、16.71、28.01的结果。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分