基于深度学习的新闻文本分类系统
作者单位:南京邮电大学
学位级别:硕士
导师姓名:赵学健
授予年度:2022年
学科分类:12[管理学] 050301[文学-新闻学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 05[文学] 081203[工学-计算机应用技术] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0503[文学-新闻传播学] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着现代信息科学技术的发展,互联网用户的爆发式增长,对海量数据的处理在数据处理领域正变得愈发重要,而人工神经网络(Artificial Neural Network,ANN)在大数据的筛选与处理方面起到了极为关键的作用。人工神经网络在计算机视觉、机器翻译、自动驾驶等领域已成功地解决了许多棘手问题,因此人工神经网络也越来越多的被应用到自然语言处理(Natural Language Processing,NLP)中的文本分类问题上,该方向是目前自然语言处理的一个热点以及难点。人工神经网络不仅可以快速高效的处理海量数据,并能够在一定程度上提高处理数据的精确性。然而英文与中文在字符级以及词级上存在许多的差异,相比较于英文,由于中文数量在字符级以及词级上都要大于英文数量,而导致中文文本分类技术目前仍然存在处理速度,精确率以及分词方面的问题。TEXTCNN是一种基于卷积神经网络的文本分类算法,被广泛运用与研究。本文针对TEXTCNN模型在文本分类中的特征提取较差以及对序列文字缺少长距离关注的问题,主要做了以下工作。针对TEXTCNN模型特征提取较差的问题,全局信息关注能力较差的问题,本文在TEXTCNN的基础上,结合压缩与激励结构,设计了文本压缩与激励结构,提出了一种基于压缩与激励结构的TEXTCNN模型称为SE-TEXTCNN。与原始TEXTCNN相比,该模型能增强语义关系,扩大感受视野,并对特征通道加权,增强有益特征。本文以准确率和F1值作为评价指标在THUCNews数据集中进行实验。在实验环节探究了批次大小等参数变量对模型分类效果的影响,并通过多模型对比实验证明了模型的可行性。从实验结果看来,SE-TEXTCNN较Bi LSTM、TEXTCNN以及其他模型的准确率提升了0.7到1.9个百分点,F1值提升了0.6到1.6百分点。针对传统词嵌入模型缺少长期依赖的问题,本文在上述模型的基础上,引入了中文BERT预训练模型,采用文本文本压缩与激励结构,设计并实现了BERT-SCNN模型。上述模型具有良好的特征提取效果,针对bert模型输出的具有强语义关联的数据并充分利用bert模型的优点,本文采用1维卷积对BERT模型输出的数据进行特征提取,并在卷积操作前取消SE操作。最后在实验环节探究了不同参数更新策略、多个改进模型的对比实验。从实验结果来看BERT-SCNN在测试集上的分类表现优于其它基于BERT的改进模型。最后基于本文提出的SE-TEXTCNN和BERT-SCNN模型根据不同服务器的硬件配置设计了一个新闻文本分类系统。