基于PU学习和迁移学习的脏话识别算法
作者单位:四川大学
学位级别:硕士
导师姓名:于中华
授予年度:2021年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:如今,诸如微信、Twitter以及网络游戏等社交平台的兴起,促进了广大用户的线上信息交互,但也衍生出网上脏话言论无节制、无约束使用的问题。脏话主要是指针对个人或者某个群体的侮辱或攻击言论,这些言论给公共环境和用户体验带来了负面影响。因此为社交平台进行脏话自动识别具有重要意义。近些年来,脏话识别任务吸引了不少自然语言处理领域学者的研究。目前脏话识别采用的方法大多属于有监督学习,需要大量标注数据。虽然已有来自Twitter、Facebook等平台的标注数据,但不同主题平台的脏话特点可能具有差异,导致这些标注数据不一定适用于其他平台;另外采用人工标注数据耗时耗力。本文将由社交平台举报机制得到的脏话作为正例,提出基于正例无标签(Positive and Unlabeled,PU)学习的脏话识别算法。另外由于平台运营前期举报的脏话样例较少,使得模型学习到的脏话信息有限,本文进一步引入迁移学习方法提升脏话识别的效果。本文的具体工作如下:(1)现有的标注数据主要基于Twitter、Facebook等平台,而不同主题平台脏话特点可能存在差异,因此,不一定适合使用已有的标注数据为其他平台进行脏话识别,采用人工标注数据也耗时耗力。本文考虑到社交平台的举报机制易于获取正例样本,负例样本难于获取,提出一种基于PU学习的脏话识别算法。该算法使用正例样本和无标签样本进行训练并在训练中将无标签样本作为权重较小的负例,降低了模型训练的成本。为了验证该方法的有效性,本文在Offensive 2019数据集上进行了实验,结果表明本文提出的方法能够在只有正例的情况下达到与有监督学习方法接近的效果。(2)平台运营前期举报的脏话样例较少,导致模型学习到的脏话信息有限,针对此问题,本文进一步提出一种基于迁移学习的脏话识别算法。该方法将针对脏话词典和牛津高阶词典中例句的脏话识别作为源领域,针对社交平台言论的脏话识别作为目标领域,对源领域中的知识进行迁移,使目标领域模型的识别效果得到提升。为了验证迁移学习的有效性,本文分别在PU学习方法和有监督学习方法基础上进行实验,结果表明该方法的F1值整体得到了提升。