咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于多样化文本表示的文本分类研究 收藏
基于多样化文本表示的文本分类研究

基于多样化文本表示的文本分类研究

作     者:李念奇 

作者单位:南京大学 

学位级别:硕士

导师姓名:黄书剑

授予年度:2018年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:文本表示 多聚类 多样化特征 文本分类 

摘      要:文本分类是自然语言处理领域一项非常重要的基础工作,在学术界与产业界均得到广泛的应用与研究。提升文本表示质量是改进文本分类的重要途径。文本是由字或字符构成词,由词构成短语,再由短语构成句、段、节、章、篇等。机器学习算法无法对文本直接进行处理,需要转化成特定的格式作为机器学习模型的输入。文本表示是将文本数字化的过程,将文本表示成机器学习模型可以识别的实数向量或矩阵的形式。文本表示的核心是真实地反映文本内容的同时,对不同的文本保持区分度。文本数据包含多样化的内容特征,如主题、语言风格、情感倾向等。每个内容特征分别包含文本不同的关键信息点。当前的文本表示方法,如向量空间模型、主题模型、词向量模型等,均只生成单一的文本表示。使用单一的文本特征还原具有多样化内容特征的文本信息,会削弱文本不同内容特征的特征描述,不利于还原文本的真实内容。针对该问题,本文提出一种新的文本表示方式方法,即多样化文本表示。本文认为,使用多样化的内容特征,可以增强特征提取的能力,更好的还原文本的真实信息。多样化文本表示是一种使用无监督学习强化特征提取的方法,其关键在于如何获取多样化的文本表示。本文提出了如下三种解决方案:*** K-Means模型。Alter k-Means模型可以生成多组、差异较大的聚类,每个聚类对应一组表示向量。聚类的差异性将在下文中进行详细描述。每个聚类的一组表示向量作为基底,将样本映射到新的特征空间当中,通过捕获样本在新的特征空间当中的位置信息,强化对样本的特征提取。*** LDA模型。Alter LDA模型是对主题模型LDA的泛化。可以生成多组、差异较大的主题结构,捕获文本在不同主题结构下的特征表示。Alter LDA模型使用“主题-词分布描述文本的主题结构,使用“文档-主题分布作为样本的特征表示,主题结构的差异将使用KL散度进行度量。3.横向多样化文本表示模型。横向多样化文本表示模型使用不同的文本表示模型,分别挖掘文本数据中不同的内容特征,生成差异较大、包含不同特征信息的文本表示。实验结果表明,多样化文本表示可以提升文本分类的效果。同时,多样化文本表示相较于已有的文本表示方法有着明显的降维效果。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分