咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度学习的中文短文本分类算法研究与应用 收藏
基于深度学习的中文短文本分类算法研究与应用

基于深度学习的中文短文本分类算法研究与应用

作     者:杨晓 

作者单位:山东师范大学 

学位级别:硕士

导师姓名:刘希玉;向来生

授予年度:2021年

学科分类:08[工学] 081104[工学-模式识别与智能系统] 081203[工学-计算机应用技术] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:中文短文本分类 向量化表示 卷积神经网络 特征选择 注意力机制 

摘      要:互联网技术的广泛应用促使中国网民数量和网络普及率不断提升,由此产生了许多在线文本数据且数量呈指数级不断增加,从如此庞大的文本数据中挖掘出有效的信息对于医学咨询、酒店服务、影院上映、企业管理等多个行业的管理和服务起到了重要作用,由此衍生出文本自动分类这一重要课题。文本分类的关键环节在于文本的向量化表示和分类模型的训练两个阶段。向量化表示方法包括基于空间的向量表示方法和分布式表示方法,传统的向量表示方法如one-hot、TF-IDF和向量空间模型容易造成维度爆炸、特征稀疏等问题,对词语的表示力度不强,更影响分类的效果。现今常用的是以word2vec为基础的各种改进文本嵌入算法,包括skip-gram算法和CBOW算法等,在一定程度上解决了此类问题。模型训练方面,机器学习方法的兴起大大提高了传统手工分类和词频分类的效率,对于解决大规模文本数据集的分类问题具有良好的效果。在深度学习算法从图像识别引入到自然语言处理任务后,其较强的学习能力使分类的准确率有较大幅度的提高。本文在分布式向量表示和深度学习的基础上加以改进,提出了融合的神经网络模型并在相应文本数据集上加以应用,具体研究内容如下:(1)在skip-gram算法的基础上,在分布式表示的训练过程中采用基于unigram分布的负采样方式,提高了模型收敛的速度和文本矩阵的表达效果。在卷积神经网络的基础上构建了融合的神经网络模型ARCNN。进入卷积层之前,采用双向长短期记忆网络从正向和反向两个方向提取文本的上下文信息,获取了全文的长期依赖性,经过卷积层提取特征向量后,以注意力机制代替池化层的最大池化方法,对输出的特征向量附以一定的权重,突出关键信息。最后将ARCNN模型与三个对照组在双标签的情感文本数据集和多标签的新闻文本数据集进行实验对比,第一组是传统的机器学习模型,第二组是单一的神经网络模型,第三组是其他融合的神经网络模型。实验证明神经网络模型效果要好于机器学习的模型,ARCNN模型融合利用了三种神经网络模型的优势,在两个数据集上的分类效果均有所提高。(2)在ARCNN模型的基础上,增加了语义关系,构建了双通道融合卷积神经网络模型SAARCNN。在通用领域通道采用ARCNN模型,在特定领域通道,首先采用二元操作将处理后的文本分成二元词组,然后通过设定的特征选择方法χ、χ*def(t)以及χ*log(def(t))选择前N的复合特征集和前N的子特征集组成输出特征集,采用特定领域的向量化表示方法进行文本嵌入,分类模型选取TextCNN模型进行学习和分类,两个通道在全连接层通过串联的方式进行连接。最后将SAARCNN模型在医学领域数据集上进行验证,结果表明在特定领域各个类别的文本集中F1值均有所提高。(3)将SAARCNN模型应用于医院网络咨询文本分类系统中,对患者在医院网站咨询的问题实现了自动分类,具有一定的现实意义。介绍了系统的模型训练流程和自动分类流程两大主体流程,对于两个流程所需要的文本收集模块、文本预处理模块、特征选择和向量化表示模块、模型训练模块、自动分类服务模块等五大模块详细阐述了其实现原理和相应流程,并实现了系统的应用。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分