基于标签嵌入和注意力机制的文本分类算法研究
作者单位:中国科学技术大学
学位级别:硕士
导师姓名:李俊
授予年度:2021年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:文本分类 预训练模型 标签嵌入 卷积初始化 注意力机制
摘 要:受益于互联网的发展,全世界时时刻刻都会产生大量的文本资源。在这些杂乱无章的文档资源中,其实蕴含着丰富的商业价值,但前提是需要对它们进行有效地组织和管理。面对海量文本,人工处理显然不可取,自动文本分类技术也就应运而生,并成为管理文本信息资源不可或缺的工具。关于文本分类的技术研究,可以说层出不穷。传统文本分类领域中,文本表示方法如独热编码通常具有数据稀疏和维度灾难的问题,而特征提取算法如卷积神经网络则无法针对性的关注重要特征。近年来,预训练模型和注意力机制在自然语言处理领域全面发力,取得了巨大的成功,也因此受到更广泛的关注和研究。本文在两种经典模型——卷积神经网络和循环神经网络的基础之上,结合BERT(Bidirectional Encoder Representations from Transformers)等预训练模型、标签嵌入和注意力机制,提出了两种文本分类算法,具体如下:(1)基于标签嵌入的多尺度卷积初始化文本分类算法(Label-Embedding-Based Multi-scale Convolution for Text Classification,LEMC)。LEMC 模型在通过卷积操作捕获局部语义关系的同时,利用K-means算法对数据集的所有样本聚类,并将得到的bi-gram向量用来初始化卷积核,使其能够在训练开始时就专注于学习重要的语义特征。而标签信息的嵌入,则改进了传统的文本表示,从而可以更好的反映文本自身的类别属性。在五个分类任务上的实验结果表明,LEMC模型优于卷积神经网络等经典的文本分类模型,表明卷积初始化和标签嵌入的有效性。此外,卷积初始化和标签嵌入都没有用到外部资源,且只需相对较小的计算量,这对于训练成本可能存在问题的情况很有吸引力。(2)融合标签嵌入的注意力机制下的文本分类算法(Text Classification under the Attention Mechanism Based on Label Embedding,ALEC)。ALEC 模型可以有效地捕捉长距离语义特征,并通过注意力机制,对序列输出特征进行重要性排序和学习。该算法利用BERT模型对文本和标签同时进行词向量化表示,将得到的文本矩阵和标签矩阵转置相乘获得交互矩阵,接着引入注意力机制的思想,利用卷积神经网络对交互矩阵进行特征抽取,获得文本和标签之间的相关性分数,来改进文本矩阵作为输入的双向长短期记忆网络的序列输出特征。实验结果表明,ALEC模型的表现优于其他算法,在测试集上的准确率得到了更大的提升。