融合字词特征的互联网敏感言论识别研究
Research on Internet Sensitive Speeches Recognition Combining Features of Characters and Words作者机构:中国人民公安大学信息网络安全学院北京100045
出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)
年 卷 期:2023年第59卷第13期
页 面:129-138页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家社会科学基金(20AZD114) CCF-绿盟科技“鲲鹏”科研基金(CCF-NSFOCUS 2020011) 中国人民公安大学公共安全行为科学实验室开放课题基金(2020sys08)
主 题:敏感言论识别 字特征 词特征 多头自注意力机制 门控机制
摘 要:互联网敏感言论与普通言论之间存在显著差异,为规避过滤规则,其语义较为隐晦,一词多义现象频出,不规范程度较高。为高效识别互联网中的敏感言论并对其进行准确分类,针对敏感言论的特点与现有模型的缺点,对文本卷积神经网络进行了改进,结合ALBERT(a Lite BERT)动态字级编码模型、文本卷积神经网络、多头自注意力机制与门控机制的优势,提出了一种融合字词特征的双通道分类模型ALBERT-CCMHSAG。该模型将文本的字级与词级语义信息、局部关键特征与上下文语义进行了充分提取与融合,以此提升敏感言论的分类效果。ALBERTCCMHSAG模型在敏感言论数据集上、噪声敏感言论数据集、小样本敏感言论数据集上的表现均为最优,证明了该模型对敏感言论识别与分类能力更强,能应对噪声数据与适应训练数据不足的情况,鲁棒性更强。在酒店评论数据集上,该模型的性能同样优于对比模型,证明了模型在其他语料上也很可能具有优异表现。