基于改进DE-Tri-Training算法的汉语多词表达抽取
Chinese Multi-word Expression Extraction Based Improved DE-Tri-Training Algorithm作者机构:金陵科技学院软件工程学院南京211169 山西大学计算机与信息技术学院太原030006 苏州市职业大学计算机工程学院苏州215104
出 版 物:《数据采集与处理》 (Journal of Data Acquisition and Processing)
年 卷 期:2017年第32卷第1期
页 面:141-148页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(61100138 61402134 11601202)资助项目 江苏省"333"工程高层次人才培养(BRA2015108)资助项目 金陵科技学院高层次人才工作启动费(40620022)资助项目 江苏省高校自然科学研究面上(16KJB520013 14KJB520013)资助项目 山西省自然科学基金(2011011016-2)资助项目 山西省回国留学人员科研(2013-022)资助项目 山西省2012年度留学回国人员科技活动择优资助项目
摘 要:多词表达的识别错误会对很多自然语言处理任务造成不利影响。DE-Tri-Training半指导聚类算法在聚类初期使用有指导的标注信息,取得了较好的抽取结果。本文采用基于中心词扩展的初始聚类中心确定方法和基于有指导信息的一致性协同学习数据净化方法,提出了半指导策略抽取汉语多词表达,聚类算法的中后期也加入有指导的信息,使分类器能使用正确的标注信息进行训练。通过与DETri-Training算法的对比实验,改进的DE-Tri-Training算法得到的汉语多词表达抽取结果优于原来的算法,验证了改进DE-Tri-Training算法的有效性。