基于深度学习的中文新闻文本分类研究
作者单位:南昌大学
学位级别:硕士
导师姓名:于龙昆;谭逢富
授予年度:2022年
学科分类:12[管理学] 050301[文学-新闻学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 05[文学] 081104[工学-模式识别与智能系统] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0503[文学-新闻传播学] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着科技的快速发展,人们通过手机、电脑等电子设备获取新闻的方式多种多样,这些新闻通常以文本的形式存在于我们的日常生活当中,随着新闻文本规模地不断增加,需要对这些文本信息进行分类管理,如何基于大量的新闻文本数据设计出准确且高效的分类模型是一项具有重大意义的研究。自BERT(Bidirectional Encoder Representation from Transformers,BERT)预训练模型问世之后,极大提高了自然语言处理(Natural Language Processing,NLP)各项任务成绩,然而BERT模型仍然潜在存在一些问题:(1)汉字往往以词的方式为人们所理解,通过学习到词的语义信息能够更好地提高分类效果;(2)由于BERT模型结构十分复杂,性能较弱的硬件设备的训练过程会比较漫长,导致效率下降;(3)复杂的模型对于数据集的规模要求也较高,在实际任务中,数据集通常难以收集到充足的数量,最终导致模型出现过拟合、泛化能力低等问题。针对以上问题,设计出改进泛化能力的Go BERT(A Generalized Optimized BERT)文本分类模型,对上述问题进行了改进:(1)改进BERT的掩盖方式,将按字掩盖改为全词掩盖,提升模型的理解能力;(2)引入学习率衰减机制,凭借较高的初始学习率让模型在训练初期加速收敛,随着学习率衰减使得模型可以达到最优解;(3)通过数据增强技术对训练数据进行增扩以提高模型泛化能力,避免出现过拟合。基于清华大学提供的THUCNews和搜狐新闻数据集进行实验,实验结果证明Go BERT模型在提高分类效果的同时提高模型的泛化能力。将Go BERT和Text CNN相结合提出Go BERT-Text CNN模型并加入对抗训练进一步提高分类和泛化能力。实验结果表明Go BERT-Text CNN模型在准确率、精确率、召回率以及F1值等方面有了明显提升。