咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >不均衡大数据集下的文本特征基因提取方法 收藏

不均衡大数据集下的文本特征基因提取方法

Text Feature Gene Extraction on Imbalanced Big Dataset

作     者:孙晶涛 张秋余 SUN Jing-tao;ZHANG Qiu-yu

作者机构:西安邮电大学计算机学院西安710121 兰州理工大学计算机与通信学院兰州730050 

出 版 物:《电子科技大学学报》 (Journal of University of Electronic Science and Technology of China)

年 卷 期:2018年第47卷第1期

页      面:125-131页

核心收录:

学科分类:080903[工学-微电子学与固体电子学] 0809[工学-电子科学与技术(可授工学、理学学位)] 08[工学] 080501[工学-材料物理与化学] 0805[工学-材料科学与工程(可授工学、理学学位)] 080502[工学-材料学] 

基  金:国家自然科学基金(61363078) 陕西省科技统筹创新工程-重点产业创新链-工业领域项目(2016KTZDGY04-01) 陕西省自然科学基础研究计划(2016JM6048) 

主  题:CHI统计选择方法 不均衡大数据集 独立成分分析 信息熵 文本特征基因提取 

摘      要:在不均衡大数据集情况下,传统特征处理方法偏重大类而忽略小类,影响分类性能。该文提出了一种文本特征基因提取方法。首先,基于样本类别分布不均衡对特征选择的影响,给出了一种结合信息熵的CHI统计矩阵特征选择方法,以强化小类的特征;然后,在探究多维统计数据高阶相关性的基础上,采取独立成分分析手段,设计了文本特征基因提取方法,用以增强特征项的泛化能力;最后,将这两种方法相融合,实现了在不均衡大数据集下的文本特征基因提取新方法。实验结果表明,所提方法具有较好的早熟性及特征降维能力,在小类的分类效果上优于常见特征选择算法。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分