咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种用于文本分类的去冗余特征选择新方法(英文) 收藏

一种用于文本分类的去冗余特征选择新方法(英文)

A new feature selection method for handling redundant information in text classification

作     者:You-wei WANG Li-zhou FENG 

作者机构:School of Information Central University of Finance and Economics School of Science and Engineering Tianjin University of Finance and Economics 

出 版 物:《Frontiers of Information Technology & Electronic Engineering》 (信息与电子工程前沿(英文版))

年 卷 期:2018年第19卷第2期

页      面:221-234页

核心收录:

学科分类:0810[工学-信息与通信工程] 0808[工学-电气工程] 0809[工学-电子科学与技术(可授工学、理学学位)] 08[工学] 081203[工学-计算机应用技术] 0839[工学-网络空间安全] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:Project supported by the Joint Funds of the National Natural Science Foundation of China(No.U1509214) the Beijing Natural Science Foundation,China(No.4174105) the Key Projects of National Bureau of Statistics of China(No.2017LZ05) the Discipline Construction Foundation of the Central University of Finance and Economics,China(No.2016XX02) 

主  题:特征选择 信息验证 分类处理 冗余性 特征子集 支持向量 Gini 精确性 

摘      要:特征选择是文本分类领域一种重要降维方法。针对传统特征选择方法所选特征集常包含冗余信息的问题,提出一种能够有效去除冗余信息的特征选择新方法。首先,为衡量两个词之间的关系,引入基于词频的相关性和相对冗余词集的概念;接着,选择一种最优特征选择方法并用其获得一个临时特征子集;最后,为提高算法执行效率,结合预设阈值去除临时特征子集中的冗余特征,并将结果存储在链表结构中。实验以支持向量机和朴素贝叶斯作为分类器,并以WebKB、20-Newsgroups和Reuters-21578作为测试数据集。实验结果表明,该方法分类精度高于传统特征选择方法;相对于基于互信息的方法而言,该方法能够在保证分类精度的同时,有效提高运行效率。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分