咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >带有领域迁移特性的众包文本整合方案研究 收藏
带有领域迁移特性的众包文本整合方案研究

带有领域迁移特性的众包文本整合方案研究

作     者:于信 

作者单位:南京信息工程大学 

学位级别:硕士

导师姓名:马廷淮

授予年度:2023年

学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:众包文本整合 文本摘要生成 数据分布对齐 零样本学习 少样本学习 

摘      要:众包文本是当今互联网渠道中最常用的信息获取方式之一,其中包含丰富的内容和观点。整合众包文本可以提取主要内容和态度,为信息收集者提供重要的反馈和决策参考。然而,众包文本数据的来源通常涉及多个领域,而且在新领域中数据量较少且参考真值稀缺,这使得无法使用传统的有监督学习方法来训练基于深度神经网络的自动文本摘要生成模型,从而限制了对大量众包文本进行内容整合的能力。为了解决这个问题,本研究提出了一种基于领域迁移特性的众包文本整合方案。该方案通过有针对性地改进深度神经网络摘要生成模型,并利用来源领域中已有的带有参考真值的数据,帮助在目标领域中生成整合摘要文本。这种方法有效地降低了在目标领域进行大量数据标注的成本。因此,本文以多领域少样本条件下的迁移式摘要生成任务为核心,展开了以下2项研究:(1)基于数据特征的语义要素转导迁移方法,旨在解决不同领域数据分布差异和新领域数据缺失的问题。首先,通过采用领域数据表示分布对齐的技术,实现了源域和目标域数据的对齐,从而解决了领域之间的差异。其次,引入了一种直推式语义要素转导方法,通过学习语义要素,实现了不同领域数据之间的语义关联。同时,改进了深度神经网络摘要生成模型的内部结构,以提高摘要生成的性能。最后,在公开的PENS新闻数据集上进行了实验证明了本文方法在迁移式文本生成方面的有效性。(2)基于少样本数据的领域快速适应微调方法,旨在解决模型在目标域中快速泛化和少量数据微调的问题。通过采用元学习方法,并通过添加适配器层对深度神经网络的编码器和解码器进行微调。这种方法不仅能够稳定地适应目标域,还能够提高模型的泛化能力。此外,使用“任务集数据对模型进行训练,进一步提高了模型的训练效率和泛化能力。即使目标域中只有少量含参考真值数据,该方法也能显著提高模型的泛化能力。在公开的亚马逊评论数据集上进行了实验,实验证明了所提出的方法相比其他先进的迁移式文本生成方法具有更好的摘要生成性能,并可以在较少的微调数据量下获得稳定的性能表现。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分