基于数据挖掘的文本自动分类仿真研究
Simulation Research of Text Categorization Based on Data Mining作者机构:乐山师范学院智能信息处理及应用实验室四川乐山614000 乐山师范学院计算机科学学院四川乐山614000
出 版 物:《计算机仿真》 (Computer Simulation)
年 卷 期:2011年第28卷第12期
页 面:195-198页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:研究文本分类优化问题,文本是一种半结构化形式,特征数常高达几万,特征互相关联、冗余比较严重,影响分类的准确性。传统分类方法难以获得高正确率。为了提高文本自动分类正确率,提出了一种数据挖掘技术的文本自动分类方法。利用支持向量机对于特征相关性和稀疏性不敏感,能很好处理高维数问题的优点对单词对分类的贡献值进行计算,将对分类贡献相近单词合并成文本向量的一个特征项,采用支持向量机对特征项进行学习和分类。用文本分类库数据进行测试,结果表明,数据挖掘技术的分类方法,不仅加快了文本分类速度,同时提高文本分类准确率。