文本表示方式对线性支持向量机分类性能的影响
IMPACT OF TEXT REPRESENTATIONS ON PERFORMANCE OF LINEAR SUPPORT VECTOR MACHINES作者机构:炮兵学院一系合肥230031 南京理工大学计算机系南京210094
出 版 物:《模式识别与人工智能》 (Pattern Recognition and Artificial Intelligence)
年 卷 期:2004年第17卷第2期
页 面:161-166页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:二十世纪九十年代以来自动文本分类技术受到人们的广泛重视,取得了大量的研究成果,但这些研究大多集中在机器学习算法本身的创新或改进上面,涉及文本表示的理论或实验研究都相对较少,通过在语料库Reuters-21578上进行大量对比实验,本文着重考查了影响文本表示的五个主要因素:功能词、词根、取值方式、权方式和规范化,对线性支持向量机分类性能的影响以及这些因素之间的交互作用,找到了能显著提高文本分类效果的最佳文本表示方式.