关于文本特征抽取新方法的研究
Research about new methods of text feature extraction作者机构:清华大学计算机科学与技术系智能技术与系统国家重点实验室北京100084
出 版 物:《清华大学学报(自然科学版)》 (Journal of Tsinghua University(Science and Technology))
年 卷 期:2001年第41卷第7期
页 面:98-101页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金资助项目 (79990 5 80 ) 国家"九七三"基础研究基金项目 (G19980 3 0 414 ) 清华大学基础研究基金项目
主 题:文本挖掘 词袋法 评估函数 特征独立性假设 等级树 特征抽取 文本分类
摘 要:该文研究了已有和最新的各种基于评估函数的特征筛选方法 ,评价了它们的优缺点和适用范围 ,并实现了一种用评估函数代替 TFIDF法中 IDF函数进行分类的新算法。然后进一步从如何放宽特征独立性假设 。