基于BootStrapping的集成分类器的中文观点句识别方法
A Method for Chinese Opinion Sentence Identification Based on the Ensemble Classifier with BootStrapping作者机构:山西大学计算机与信息技术学院山西太原030006 山西大学计算机与信息技术学院山西太原030006 山西大学计算智能与中文信息处理教育部重点实验室山西太原030006
出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)
年 卷 期:2013年第27卷第5期
页 面:84-92页
核心收录:
学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金资助项目(61175067,61272095,60970014) 山西省自然科学基金资助项目(2010011021-1) 山西省科技攻关项目(20110321027-02)
主 题:观点句识别 BootStrapping 集成分类器
摘 要:领域相关的大规模和高质量的标注训练数据是分类器性能的重要保证,而标注训练语料是一件费时费力的工作。该文提出了一种采用小规模标注语料识别中文观点句的方法。首先采用Bootstrapping方法扩展训练语料,分别训练贝叶斯、支持向量机和最大熵分类器。最后,通过给三个训练好的分类器赋权获得一个集成分类器。实验结果表明,集成后的分类器性能优于单分类器,并且该方法在使用部分标注训练数据的情况下也能取得与采用全部标注训练数据相近的实验结果。