咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >中文文本分类中基于概念屏蔽层的特征提取方法 收藏

中文文本分类中基于概念屏蔽层的特征提取方法

A Feature Selection Method in Chinese Text Classification Based on Concept Extraction with a Shielded Level

作     者:廖莎莎 江铭虎 LIAO Sha-sha;JIANG Ming-hu

作者机构:清华大学人文学院计算语言实验室清华大学认知科学创新基地北京100084 

出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)

年 卷 期:2006年第20卷第3期

页      面:22-28页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:教育部优秀青年教师资助计划项目(2051) 中国科学院模式识别国家重点实验室开放课题基金(10) 2003年度清华大学985-Ⅰ期基础研究基金的资助 

主  题:计算机应用 中文信息处理 文本分类 特征提取 概念抽取 属性特征树 屏蔽层 描述能力 

摘      要:本文提出了一种新的基于概念抽取和屏蔽层的特征选择方法。该方法利用HowNet概念词典中的概念树,通过义原在概念树中的位置信息进行概念抽取,并赋予其适当权值来说明其描述能力。对于权值低于屏蔽层的义原,我们不将其选入特征集,并相应保留原词。具体到每个词,我们计算其DEF条目中的权值,决定是将原词选入特征集还是进行概念抽取。本文重点研究了如何给义原设定一个合适的权值,如何在选取原词和概念之间取得平衡以及针对非概念词的加权处理。实验证明,设定合适的屏蔽层,不仅可以缩小特征维数,使分类正确率得到一定的提高,而且可以减少不同类别间的分类正确率的差别。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分