咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >融合字词特征的互联网敏感言论识别研究 收藏

融合字词特征的互联网敏感言论识别研究

Research on Internet Sensitive Speeches Recognition Combining Features of Characters and Words

作     者:闫尚义 王靖亚 朱少武 崔雨萌 陶知众 YAN Shangyi;WANG Jingya;ZHU Shaowu;CUI Yumeng;TAO Zhizhong

作者机构:中国人民公安大学信息网络安全学院北京100045 

出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)

年 卷 期:2023年第59卷第13期

页      面:129-138页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家社会科学基金(20AZD114) CCF-绿盟科技“鲲鹏”科研基金(CCF-NSFOCUS 2020011) 中国人民公安大学公共安全行为科学实验室开放课题基金(2020sys08) 

主  题:敏感言论识别 字特征 词特征 多头自注意力机制 门控机制 

摘      要:互联网敏感言论与普通言论之间存在显著差异,为规避过滤规则,其语义较为隐晦,一词多义现象频出,不规范程度较高。为高效识别互联网中的敏感言论并对其进行准确分类,针对敏感言论的特点与现有模型的缺点,对文本卷积神经网络进行了改进,结合ALBERT(a Lite BERT)动态字级编码模型、文本卷积神经网络、多头自注意力机制与门控机制的优势,提出了一种融合字词特征的双通道分类模型ALBERT-CCMHSAG。该模型将文本的字级与词级语义信息、局部关键特征与上下文语义进行了充分提取与融合,以此提升敏感言论的分类效果。ALBERTCCMHSAG模型在敏感言论数据集上、噪声敏感言论数据集、小样本敏感言论数据集上的表现均为最优,证明了该模型对敏感言论识别与分类能力更强,能应对噪声数据与适应训练数据不足的情况,鲁棒性更强。在酒店评论数据集上,该模型的性能同样优于对比模型,证明了模型在其他语料上也很可能具有优异表现。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分