融合视觉生成信息的多模态机器翻译研究
作者单位:郑州轻工业大学
学位级别:硕士
导师姓名:刘静静;师夏阳
授予年度:2024年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:多模态神经机器翻译性能的提升在很大程度上依赖于大规模且丰富多样的训练数据,然而收集并精确地标记这类多模态数据是一项耗时费力的任务,尤其是在自然语言处理和计算机视觉领域,由于数据的复杂性和多样性,构建大规模高质量的标记数据提升多模态机器翻译性能常常面临困难。首先,模型复杂度过高、参数规模庞大往往会导致人工标注所需的数据成本显著提升,以及如何有效利用有限且珍贵的数据资源以突破性能瓶颈,成为了当前研究与实践领域亟待解决的重要课题;其次,生成的视觉信息在整合不同模态信息时可能存在的效率低下和深度融合不足的问题。基于上述分析,本研究按照以下两方面开展: 1.本文提出了一种新的数据标注和知识蒸馏方法。利用预先训练好的文本到图像生成模型得到标注数据,这种模型能够在给定任意文本输入的情况下,自动生成与文本语义相对应的视觉图像。扩展了单一文本信息的空间维度,同时也降低了对大规模人工标注图像数据的依赖,间接地缓解了数据获取成本高的问题。对比搭建一个能够无缝对接和同步处理文本与图像信息的高阶认知平台,不仅能够精确捕获文本的深层语义特征,还能借助先进的文本到图像生成技术生成与文本高度相关且细节丰富的视觉内容通过运用知识蒸馏这一关键技术手段来优化模型训练参数,特别是在面对多模态机器翻译任务中数据获取成本过高的问题时,该策略展现出了显著的优势,通过模型压缩和迁移学习的技术,允许将一个大型复杂的教师模型的知识“蒸馏至一个较小的学生模型中,从而使学生模型在有限的数据和计算资源下也能达到接近或逼近教师模型的性能水平。本研究方法在包括Multi30k、Global Voice等多个数据集上验证有效性,相比纯文本翻译任务在BLEU评分指标上平均提高了3.64%。 2.本文提出了一种改进视觉信息与文本信息的融合机制,该方法是更为精细和灵活的融合策略,利用上下文引导将生成的图像特征与原始文本特征在多层次、多粒度上进行深度交互和联合编码,进一步强化了两者之间的内在关联性和互补性,使得文本和由此生成的图像信息能够更加紧密、准确地相互作用,从而显著提升了整个系统的多模态理解能力和实际应用效果。针对多模态机器翻译任务对比Test2016和Test2017英语到德语分别提升2.57、2.3个BLEU值;en-de以及en-js的评分指标上分别达到3.11、4.09个BLEU值的提升。