分类问题的一种可伸缩特征选择算法
A Scalable Feature Selection Algorithm for Classification作者机构:中国科学技术大学电子工程与信息科学系合肥230027 中国科学技术大学计算机科学技术系合肥230027 安徽中科大讯飞信息科技有限公司合肥230088
出 版 物:《计算机学报》 (Chinese Journal of Computers)
年 卷 期:2005年第28卷第7期
页 面:1223-1229页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家"八六三"高技术研究发展计划项目基金(2004AA114030)资助.~~
摘 要:特征选择是数据挖掘分类中的一个重要问题.该文推导出一种新的衡量特征与类别相关度的测度SCD即描述特征取值序列类分布的CV系数,利用该测度给出一种线性的可伸缩特征选择算法StaFSOS,并证明了在类别数为2时,SCD测度满足分支界限法的单调性;给出了StaFSOS的一个完备形式———BBStaFS.在12个标准数据集中,StaFSOS算法得出的结果和目标集几乎一致,而StaFSOS的效率高于其它算法;而在另1个中,BBStaFS算法得出了准确结果.在用1000个样本20个特征的真实数据进行的测试中,StaFSOS运行时间是目前较快的GRSR的1/2,得出的特征集准确有效.