咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >利用相关机器学习算法实现新闻分类 收藏
利用相关机器学习算法实现新闻分类

利用相关机器学习算法实现新闻分类

作     者:吴毛毛 

作者单位:华中科技大学 

学位级别:硕士

导师姓名:刘显明

授予年度:2018年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 08[工学] 081104[工学-模式识别与智能系统] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:文本分类 向量空间模型 支持向量机 朴素贝叶斯 随机森林 

摘      要:在互联网技术高速发展的今天,“机器学习已经成为了当下各学者甚至是各大商业公司口中的流行词汇,甚至愈演愈烈,上升到了无论是尚未毕业的学生还是在岗位奋斗数十年的IT工作者,都纷纷开启了机器学习模式。关于机器学习的改进理论也不断被提出。而中文文本分类是该理论领域的一个关键部分,是我们还需要不断优化的一个重要课程。随着互联网信息的爆炸式增长,如何使得文本精准排序进而使得信息检索更加简便,点对点地满足用户需求,是我们需要持续奋斗的目标。本文主要是采用了今日头条共六个类别的新闻数据,对于文本分类涉及的相关技术进行了详细描述和讨论。本文的开头部分介绍了该技术的研究历程及提出这一课题的意义;然后花了大量的篇幅介绍了文本数据预处理的步骤,包括去除噪声数据、文本分词、向量空间模型、特征表示及降维等相关技术。在传统的卡方统计量检验中,引入了词频和逆文档频率,将这一方法应用到特征选择中去。接着,本文主要论述了支持向量机、朴素贝叶斯及随机森林算法。最后,本文设计了完整的中文新闻分类系统,把样本集按照7:3的比例划分训练集与测试集。在训练过程中,分类器选用朴素贝叶斯算法、支持向量机、随机森林模型,特征选择分别选用卡方统计量和改进的卡方统计量,共有六组实验组。检验部分用AUC、准确率(十折交叉验证)。综合分析,改进的卡方统计量检验在支持向量机、朴素贝叶斯这两个分类中对全局分类效果都有一定程度的提高,而且随机森林的整体分类效果比朴素贝叶斯、支持向量机要好一些,并在本章最后深入研究了导致这个效果的原因,同时也对本文的不足加以点出并对文本分类的研究前景作出展望。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分