基于PU学习和迁移学习的脏话识别算法-南通市图书馆

文献详情 >基于PU学习和迁移学习的脏话识别算法收藏

基于PU学习和迁移学习的脏话识别算法

作者：臧义

作者单位：四川大学

学位级别：硕士

导师姓名：于中华

授予年度：2021年

学科分类：081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：社交平台脏话识别举报机制 PU学习迁移学习

摘要：如今,诸如微信、Twitter以及网络游戏等社交平台的兴起,促进了广大用户的线上信息交互,但也衍生出网上脏话言论无节制、无约束使用的问题。脏话主要是指针对个人或者某个群体的侮辱或攻击言论,这些言论给公共环境和用户体验带来了负面影响。因此为社交平台进行脏话自动识别具有重要意义。近些年来,脏话识别任务吸引了不少自然语言处理领域学者的研究。目前脏话识别采用的方法大多属于有监督学习,需要大量标注数据。虽然已有来自Twitter、Facebook等平台的标注数据,但不同主题平台的脏话特点可能具有差异,导致这些标注数据不一定适用于其他平台;另外采用人工标注数据耗时耗力。本文将由社交平台举报机制得到的脏话作为正例,提出基于正例无标签（Positive and Unlabeled,PU）学习的脏话识别算法。另外由于平台运营前期举报的脏话样例较少,使得模型学习到的脏话信息有限,本文进一步引入迁移学习方法提升脏话识别的效果。本文的具体工作如下:（1）现有的标注数据主要基于Twitter、Facebook等平台,而不同主题平台脏话特点可能存在差异,因此,不一定适合使用已有的标注数据为其他平台进行脏话识别,采用人工标注数据也耗时耗力。本文考虑到社交平台的举报机制易于获取正例样本,负例样本难于获取,提出一种基于PU学习的脏话识别算法。该算法使用正例样本和无标签样本进行训练并在训练中将无标签样本作为权重较小的负例,降低了模型训练的成本。为了验证该方法的有效性,本文在Offensive 2019数据集上进行了实验,结果表明本文提出的方法能够在只有正例的情况下达到与有监督学习方法接近的效果。（2）平台运营前期举报的脏话样例较少,导致模型学习到的脏话信息有限,针对此问题,本文进一步提出一种基于迁移学习的脏话识别算法。该方法将针对脏话词典和牛津高阶词典中例句的脏话识别作为源领域,针对社交平台言论的脏话识别作为目标领域,对源领域中的知识进行迁移,使目标领域模型的识别效果得到提升。为了验证迁移学习的有效性,本文分别在PU学习方法和有监督学习方法基础上进行实验,结果表明该方法的F1值整体得到了提升。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于PU学习和迁移学习的脏话识别算法

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于PU学习和迁移学习的脏话识别算法

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：