融合汉字输入法的BERT与BLCG的长文本分类研究
Chinese Long Text Classification Model Based on BERT Fused Chinese Input Methods and BLCG作者机构:华中科技大学集成电路学院武汉430074 湖北大学知行学院人文学院武汉430011
出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)
年 卷 期:2024年第60卷第9期
页 面:196-202页
核心收录:
学科分类:0831[工学-生物医学工程(可授工学、理学、医学学位)] 1205[管理学-图书情报与档案管理] 0810[工学-信息与通信工程] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:长文本分类 BERT模型 卷积神经网络 长短期记忆网络 门控机制
摘 要:现有的中文长文本分类模型中,没有考虑汉字读音、笔画等特征信息,因此不能充分表示中文语义;同时,长文本中常常包含大量与目标主题无关的信息,甚至部分文本与其他主题相关,导致模型误判。为此,提出了一种融合汉字输入法的BERT(BERT fused Chinese input methods,CIMBERT)、带有门控机制的长短期记忆卷积网络(BiLSTM fused CNN with gating mechanism,BLCG)相结合的文本分类方法。该方法使用BERT模型进行文本的向量表示,在BERT模型的输入向量中,采用了拼音和五笔两种常用的汉字输入法,增强了汉字的语义信息。建立了BLCG模型进行文本特征提取,该模型使用双向长短期记忆网络(BiLSTM)进行全局特征提取、卷积神经网络(CNN)进行局部特征提取,并通过门控机制(gating mechanism)动态融合全局特征和局部特征,解决了部分文本与目标主题无关导致模型误判的问题。在THUCNews数据集与Sogou语料库上对该方法进行了验证,其准确率为97.63%、95.43%,F1-score为97.68%、95.49%,优于其他文本分类模型。