咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于数据挖掘的文本自动分类仿真研究 收藏

基于数据挖掘的文本自动分类仿真研究

Simulation Research of Text Categorization Based on Data Mining

作     者:赖娟 LAI Juan

作者机构:乐山师范学院智能信息处理及应用实验室四川乐山614000 乐山师范学院计算机科学学院四川乐山614000 

出 版 物:《计算机仿真》 (Computer Simulation)

年 卷 期:2011年第28卷第12期

页      面:195-198页

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:乐山师范学院校级重点项目(Z0908) 

主  题:文本分类 支持向量机 特征选择 单词聚类 

摘      要:研究文本分类优化问题,文本是一种半结构化形式,特征数常高达几万,特征互相关联、冗余比较严重,影响分类的准确性。传统分类方法难以获得高正确率。为了提高文本自动分类正确率,提出了一种数据挖掘技术的文本自动分类方法。利用支持向量机对于特征相关性和稀疏性不敏感,能很好处理高维数问题的优点对单词对分类的贡献值进行计算,将对分类贡献相近单词合并成文本向量的一个特征项,采用支持向量机对特征项进行学习和分类。用文本分类库数据进行测试,结果表明,数据挖掘技术的分类方法,不仅加快了文本分类速度,同时提高文本分类准确率。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分