基于图卷积神经网络的文本分类方法研究
作者单位:燕山大学
学位级别:硕士
导师姓名:郭景峰;张淑杰
授予年度:2022年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 08[工学] 081104[工学-模式识别与智能系统] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:文本分类 图卷积网络 异构图 图注意力机制 微调Bert
摘 要:随着互联网日新月异的发展,每天都会产生大量的文本数据,如何对文本高效准确分类成为很多专家关心的课题。文本分类的核心思想是从文本中提取出更多的有效特征,根据特征的不同将文本分到对应的类别。最近将图卷积神经网络研究引入到文本分类的研究日益增多,图卷积神经网络对中心节点和邻居节点的信息融合可捕获更多的文本特征,进而提高文本分类准确率。目前基于图卷积神经网络的文本分类方法还存在很多问题,例如:异构图的构建过于简单,图卷积神经网络无法充分提取文本信息的问题;中心节点对于邻居节点权重分配均等,无法从重要邻居节点获取更多有效信息的问题;文本图中所有单词在不同文本中词向量表示相同,无法独身定制的问题。这些问题在一定程度上限制了图卷积神经网络文本分类的能力。针对上述问题,本文将开展以下研究:首先,针对异构图的构建,本文提出了新型的文本数据关联方法(WWAWD)。将文本和单词作为图中的节点,使用T_word2vec方法搭建单词和文本节点之间的连接,对于单词和单词节点之间的连接使用D-PMI方法。使得异构图中的节点连接丰富,能够存储更多的特征信息。针对中心节点与邻居节点的权值再次分配问题,本文提出GCN_ATT模型,引入图注意力机制,为中心节点的重要邻居节点分配更高的权重,抑制低效邻居节点。GCN_ATT就可以在训练时提取更多的文本信息,捕获更多的特征信息。其次,针对文本图中文本和单词采用静态向量表示,导致不同类型的文本单词特征表示相同,导致一些文本信息挖掘不充分等问题。本文提出了图卷积神经网络和Bert模型相结合的Bert_GCN文本分类方法。利用Bert模型对文本数据的微调获得文本独有的特征表示,将Bert提取到的文本向量输入到图卷积神经网络中,对特征充分提取。图神经网络中对文本信息进行捕获融合,从而达到更好的分类结果。最后,采用五个国际上通用的包含新闻、医学和电影评论等类别的文本数据集对所提算法进行验证。采用准确率和F1值作为评价指标,得出上述模型的分类能力,并与其它文本分类方法进行比较,验证本文提出的模型的优越性。