文本分类新方法的研究与应用-南通市图书馆

文献详情 >文本分类新方法的研究与应用收藏

文本分类新方法的研究与应用

作者：蔡崇超

作者单位：江南大学

学位级别：硕士

导师姓名：王士同

授予年度：2008年

学科分类：081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：文本分类网页分类朴素贝叶斯算法 EM算法不完整数据集

摘要：网络技术的快速发展使得互联网上的信息呈现爆炸式的增长。为了有效地利用和管理海量信息,基于内容的信息检索和数据挖掘逐渐成为备受关注的领域。文本分类技术TC(Text Categorization)是信息检索和数据挖掘的核心内容。其中基于机器学习的文本分类方法被认为在分类精度和灵活性上达到了较为满意的效果,但是它仍然存在着譬如非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web网页分类等问题。本文在数据集不完整和类别关系复杂的情况下进行了一系列的研究,主要包括文本表示,特征提取,特征选择,以及文本分类算法等问题。重点的目标就是通过研究这些问题找到如何在不完整样本集下提高文本分类精度的方法,以及如何在样本集中类别无法确定的情况下,发现新的类别,避免错分,借此提高文本分类效果。现实世界中的数据往往是不完整的,因此对于不完整数据集的文本分类的研究,经常采用的方法是利用朴素贝叶斯分类模型与EM算法相结合的办法来得到最终的分类器。但由于朴素贝叶斯分类器和EM算法对初始数据值有很大的依赖性,特别是当样本集中的无标记文本即缺失数据数量所占比重较大时,分类器的测试精度会受到影响。为了改善文本分类的效果,本文在Bernoulli混合模型和EM算法的基础上进行了研究。首先通过朴素贝叶斯算法在已标记数据的基础上得到似然函数参数估计初始值,然后利用含有权值λ的EM算法和Bernoulli混合模型对分类器的先验概率模型进行参数估计,从而得到最终的分类器。实验结果表明,对于不完整数据集而言所提出的方法在准确率和查全率方面要优于朴素贝叶斯文本分类及结合了EM算法的朴素贝叶斯分类。在以上方法基础上对不完整数据集对于文本分类的影响进行了进一步的研究。发现适当的在测试集中加入未标记数据样本是在现实世界中是需要经常面对的问题,本文在这方面做了相关的工作,将网页分类看成文本分类的一种特殊情况,同时考虑了网页结构对文本分类造成的影响,重点研究了文本相似度算法在这类问题上的应用,简单的文本相似度算法无法区分出有类别文本和无类别文本的区别,本文的研究结合特征提取,特征选择,最优截尾法,提出了一种新的文本分类方法,首先对网页进行预处理,得到想要的网页内容,在此基础上借助特征向量在有类别文本和无类别文本上的不同分布,达到区分不同类别的目的。实验证明这种方法对于不完整数据而言,一方面可以改善分类精度,另一方面可以达到发现新类别的目的。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

文本分类新方法的研究与应用

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

文本分类新方法的研究与应用

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：