基于标签依赖信息的多标签文本分类研究
作者单位:南京大学
学位级别:硕士
导师姓名:王崇骏
授予年度:2020年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着互联网的飞速发展和大数据时代的到来,人们被大量的信息充斥着,其中文本信息是人们接触最多也是最杂的一类信息,在很多场景下文本对象包含多义性,例如新闻、评论、博客等。多标签文本分类旨在为文本对象赋予其最相关的标签子集,可以帮助人们快速地对文本整理归档以及检索查阅。本文旨在跟进多标签文本分类领域的前沿工作,试图通过挖掘标签依赖信息来解决该领域目前仍然存在的一些问题和挑战:一方面,现有的模型方法或者没有考虑到标签与标签之间的相关性,或者仅仅考虑到低阶的关系,或者建模了高阶关系但具体做法缺乏合理性和可行性;另一方面,现有的多标签注意力机制在学习单词重要性权重时过度依赖于单个单词表示,可能导致单词与标签错误匹配等问题。本文主要从这两方面考虑来展开相关的研究工作。本文的主要工作有:(1)针对现有模型未合理地建模标签与标签之间关系的问题,基于标签共现矩阵改进了原始损失函数,设计了一种正则项以通过损失函数挖掘标签与标签之间的依赖关系,实验结果表明该方法在micro-F1值等主要指标上超过了现有的模型,进一步分析表明其可以利用标签依赖来正则化所提出的模型,从而提升了模型的泛化能力。(2)针对标签依赖建模更深层次的标签关系挖掘与标签表示学习,提出利用图卷积和标签图对输出层权重更新,实验结果表明该方法进一步提升了模型micro-F1值,进一步分析表明其在牺牲了一点在频繁标签上预测精度的情况下,大幅提升了其对稀有标签的预测能力。(3)针对传统多标签注意力机制过于依赖单个单词表示的问题,设计了一种层级注意力机制以利用全局语义来引导单词权重的学习,实验结果表明该方法进一步提升了模型micro-F1值,进一步分析表明其考虑到了标签与文档特征之间更加细致的依赖信息,并且其对频繁标签作用较为明显。