基于多样化文本表示的文本分类研究-南通市图书馆

文献详情 >基于多样化文本表示的文本分类研究收藏

基于多样化文本表示的文本分类研究

作者：李念奇

作者单位：南京大学

学位级别：硕士

导师姓名：黄书剑

授予年度：2018年

学科分类：081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：文本表示多聚类多样化特征文本分类

摘要：文本分类是自然语言处理领域一项非常重要的基础工作,在学术界与产业界均得到广泛的应用与研究。提升文本表示质量是改进文本分类的重要途径。文本是由字或字符构成词,由词构成短语,再由短语构成句、段、节、章、篇等。机器学习算法无法对文本直接进行处理,需要转化成特定的格式作为机器学习模型的输入。文本表示是将文本数字化的过程,将文本表示成机器学习模型可以识别的实数向量或矩阵的形式。文本表示的核心是真实地反映文本内容的同时,对不同的文本保持区分度。文本数据包含多样化的内容特征,如主题、语言风格、情感倾向等。每个内容特征分别包含文本不同的关键信息点。当前的文本表示方法,如向量空间模型、主题模型、词向量模型等,均只生成单一的文本表示。使用单一的文本特征还原具有多样化内容特征的文本信息,会削弱文本不同内容特征的特征描述,不利于还原文本的真实内容。针对该问题,本文提出一种新的文本表示方式方法,即多样化文本表示。本文认为,使用多样化的内容特征,可以增强特征提取的能力,更好的还原文本的真实信息。多样化文本表示是一种使用无监督学习强化特征提取的方法,其关键在于如何获取多样化的文本表示。本文提出了如下三种解决方案:*** K-Means模型。Alter k-Means模型可以生成多组、差异较大的聚类,每个聚类对应一组表示向量。聚类的差异性将在下文中进行详细描述。每个聚类的一组表示向量作为基底,将样本映射到新的特征空间当中,通过捕获样本在新的特征空间当中的位置信息,强化对样本的特征提取。*** LDA模型。Alter LDA模型是对主题模型LDA的泛化。可以生成多组、差异较大的主题结构,捕获文本在不同主题结构下的特征表示。Alter LDA模型使用“主题-词分布描述文本的主题结构,使用“文档-主题分布作为样本的特征表示,主题结构的差异将使用KL散度进行度量。3.横向多样化文本表示模型。横向多样化文本表示模型使用不同的文本表示模型,分别挖掘文本数据中不同的内容特征,生成差异较大、包含不同特征信息的文本表示。实验结果表明,多样化文本表示可以提升文本分类的效果。同时,多样化文本表示相较于已有的文本表示方法有着明显的降维效果。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于多样化文本表示的文本分类研究

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于多样化文本表示的文本分类研究

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：