一种基于认知情景框架的文本分类方法
作者单位:北京大学计算语言学研究所 北京大学中文系 教育部计算语言学重点实验室
会议名称:《第五届全国青年计算语言学研讨会》
会议日期:2010年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:自然科学基金(60975054) 社会科学基金(06BYY048)的支持
摘 要:在文本分类领域,常用的特征选择方法(如文档频率)是基于概率统计信息的。本文从一个全新的角度,即基于认知情境的语义框架的角度进行特征选择,这种方法可以较准确地抓住文本类别的特征,对提高分类精度与分类效率起到促进作用。由于基于机器学习的文本分类方法近年来得到了广泛的关注与快速的发展,本文运用最大熵分类器,以罢餐类文本为例进行文本分类实验,召回率可达96.8%。