基于协同学习的通用域自适应研究
作者单位:华南理工大学
学位级别:硕士
导师姓名:罗荣华;吴卫增
授予年度:2021年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
摘 要:随着大数据的发展,数据量不断增加,现实中对大数据的使用需求也随之变高,但大数据中存在数据无训练标签、类别未知、风格各异等情况。如何有效的利用这些无标签数据成为一个难题。域自适应方法通过一个类别空间相同且有标签的源域训练模型,将模型迁移到目标域上使用,通过对源域与目标域的数据分布对齐,使在源域训练的模型能在目标域上具有较好的效果,有效的解决大数据无标签的问题。虽然域自适应较好的解决了大数据无标签的问题,但要求大数据的类别空间与训练集完全相同,实际情况中大数据的类别信息很难获取。与域自适应不同,通用域自适应取消了类别限制。只要存在有标签的源域训练集和无标签目标域的数据,即使对于两个域中共有类别信息完全未知,通用域自适应也能将训练集与目标域之间共有类别进行区分,并对目标域共有类别数据进行任务输出。现有的通用域自适应模型仅简单的使用权重机制对目标域共有类进行筛选并进行对抗判别训练,忽视了目标域私有类数据的重要性。为进一步提升目标域私有类与共有类的分离效果,本文提出了一种基于极值伪标签的通用域自适应训练方法。该方法通过样本级权重筛选出置信度较高目标域共有类与私有类数据,为该数据配置合适的伪标签,利用伪标签再训练模型。该方法有效提高了模型对目标域私有类数据和共有类数据的判别能力,提升了模型效果。在以上研究的基础上,本文还将协同学习与基于极值伪标签的通用域自适应训练方法相结合,提出了基于协同学习的通用域自适应模型。通过两个结构相同的模块对目标域伪标签数据进行交叉学习,进一步提升了模型的准确率。同时为充分利用对称模型结构的优势,文本使用两个模块的输出相似性对筛选伪标签训练集的样本级权重进行了优化,提高了伪标签数据集可靠性。将基于协同学习的通用域自适应模型在多个通用域自适应数据集上进行了测试,效果都优于现有的方法。