咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >融合汉字输入法的BERT与BLCG的长文本分类研究 收藏

融合汉字输入法的BERT与BLCG的长文本分类研究

Chinese Long Text Classification Model Based on BERT Fused Chinese Input Methods and BLCG

作     者:杨文涛 雷雨琦 李星月 郑天成 YANG Wentao;LEI Yuqi;LI Xingyue;ZHENG Tiancheng

作者机构:华中科技大学集成电路学院武汉430074 湖北大学知行学院人文学院武汉430011 

出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)

年 卷 期:2024年第60卷第9期

页      面:196-202页

核心收录:

学科分类:0831[工学-生物医学工程(可授工学、理学、医学学位)] 1205[管理学-图书情报与档案管理] 0810[工学-信息与通信工程] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主  题:长文本分类 BERT模型 卷积神经网络 长短期记忆网络 门控机制 

摘      要:现有的中文长文本分类模型中,没有考虑汉字读音、笔画等特征信息,因此不能充分表示中文语义;同时,长文本中常常包含大量与目标主题无关的信息,甚至部分文本与其他主题相关,导致模型误判。为此,提出了一种融合汉字输入法的BERT(BERT fused Chinese input methods,CIMBERT)、带有门控机制的长短期记忆卷积网络(BiLSTM fused CNN with gating mechanism,BLCG)相结合的文本分类方法。该方法使用BERT模型进行文本的向量表示,在BERT模型的输入向量中,采用了拼音和五笔两种常用的汉字输入法,增强了汉字的语义信息。建立了BLCG模型进行文本特征提取,该模型使用双向长短期记忆网络(BiLSTM)进行全局特征提取、卷积神经网络(CNN)进行局部特征提取,并通过门控机制(gating mechanism)动态融合全局特征和局部特征,解决了部分文本与目标主题无关导致模型误判的问题。在THUCNews数据集与Sogou语料库上对该方法进行了验证,其准确率为97.63%、95.43%,F1-score为97.68%、95.49%,优于其他文本分类模型。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分