文本分类中改进型CHI特征选择方法的研究
Study on improved CHI for feature selection in Chinese text categorization作者机构:西北大学信息科学与技术学院西安710127
出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)
年 卷 期:2011年第47卷第4期
页 面:128-130,194页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:航空科学基金项目(No.2006ZC31001)~~
主 题:文本分类 特征选择 CHI统计 权值调整 分散度 集中度 频度
摘 要:分析了影响传统CHI统计方法分类精度的因素,去除了特征项与类别负相关的情况。同时将改进后的方法用于特征词的权重调整,使其分类效果有了明显提高;将分散度、集中度、频度等因素引入到改进后的方法中,提高了其在类分布不均匀语料集上的分类精确度。最后通过实验证明了该方法的有效性和可行性。