基于多语BERT的无监督攻击性言论检测
Detection of unsupervised offensive speech based on multilingual BERT作者机构:郑州轻工业大学软件学院郑州450001 郑州轻工业大学数学与信息科学学院郑州450001
出 版 物:《计算机应用》 (journal of Computer Applications)
年 卷 期:2022年第42卷第11期
页 面:3379-3385页
学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:河南省重点研发与推广专项(212102210547)。
主 题:跨语言模型 攻击性言论检测 BERT 无监督方法 迁移学习
摘 要:攻击性言论会对社会安定造成严重不良影响,但目前攻击性言论自动检测主要集中在少数几种高资源语言,对低资源语言缺少足够的攻击性言论标注语料导致检测困难,为此,提出一种跨语言无监督攻击性迁移检测方法。首先,使用多语BERT(mBERT)模型在高资源英语数据集上进行对攻击性特征的学习,得到一个原模型;然后,通过分析英语与丹麦语、阿拉伯语、土耳其语、希腊语的语言相似程度,将原模型迁移到这四种低资源语言上,实现对低资源语言的攻击性言论自动检测。实验结果显示,与BERT、线性回归(LR)、支持向量机(SVM)、多层感知机(MLP)这四种方法相比,所提方法在丹麦语、阿拉伯语、土耳其语、希腊语这四种语言上的攻击性言论检测的准确率和F1值均提高了近2个百分点,接近目前的有监督检测,可见采用跨语言模型迁移学习和迁移检测相结合的方法能够实现对低资源语言的无监督攻击性检测。