基于阻塞先验知识的文本层次分类模型
Hierarchical Text Classification Model Based on Blocking Priori Knowledge作者机构:同济大学计算机科学与技术系上海201804 南昌大学信息工程学院南昌330031
出 版 物:《模式识别与人工智能》 (Pattern Recognition and Artificial Intelligence)
年 卷 期:2010年第23卷第4期
页 面:456-463页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(No.60475019 60775036 60970061) 教育部博士点专项基金(No.20060247039)资助项目
摘 要:文本层次分类中阻塞现象是影响层次分类器性能的重要原因.针对这一问题,提出基于阻塞先验知识的文本层次分类模型.该模型包括两部分:首先对阻塞分布进行估计,提出阻塞对识别技术,重点在于获取严重的阻塞方向;其次,把分析出的阻塞先验知识融合到分类过程中,利用层次拓扑结构修正算法,引导阻塞文本回归正确分类路径.在中文语料TanCorp上的实验表明,该算法在没有额外增加分类器数目的前提下,能有效改善层次分类性能,是解决层次分类阻塞问题的一种方法.另外,与平面分类算法比较后,该算法更稳定.