基于CRF的中文地名识别研究
作者单位:大连理工大学
学位级别:硕士
导师姓名:李丽双
授予年度:2010年
学科分类:1305[艺术学-设计学(可授艺术学、工学学位)] 13[艺术学] 081104[工学-模式识别与智能系统] 08[工学] 0804[工学-仪器科学与技术] 081101[工学-控制理论与控制工程] 0811[工学-控制科学与工程]
摘 要:命名实体识别是机器翻译、信息检索、问答系统等的技术基础。中文地名识别是中文命名实体识别的一个难点。本文主要对中文地名识别进行研究,实现了条件随机域(Conditional Random Fields, CRF)与支持向量机(Support Vector Machine, SVM)相结合中文地名识别系统,并重点对条件随机域与规则相结合的中文地名识别进行了研究。 在目前常用的机器学习模型中,CRF模型结合了隐马尔科夫模型和最大熵模型优点,是比较优秀的机器学习模型之一,它可以利用上下文特征获得全局最优的标注结果,适合中文地名识别任务。本文在前人命名实体识别研究的基础上,结合分析中文地名的特点选取了合适的特征,采用递增式学习的策略选择特征模板,优化了机器模型的性能,提高了条件随机场模型的地名识别效果。 对CRF的识别结果的边缘概率进行分析后发现,CRF模型中给出的错误标记与较小的边缘概率有一定的对应关系,用边缘概率可以定位到CRF模型识别结果中的部分错误标记。SVM的识别结果与CRF识别结果有一定的互补性,将SVM识别结果对CRF较小的边缘概·率的标记进行修正,以提高系统的召回率。实验证明,这种混合模型的识别效果优于单纯的CRF。 CRF的错误标注结果中有许多标注与语法规则和语义规则明显不符,这是由于机器模型不能表达语言确定性造成的。规则的方法正好可以弥补机器模型的这一不足。本文通过分析词法和语义结构,对CRF的错误识别结果进行归类,人工添加规则修正CRF识别结果,取得较好的识别结果。 实验证明,本文采用的方法是有效的,对BAKEOFF-3 NER任务的MSRA语料进行开放测试,条件随机域与支持向量机相结合的地名识别系统的召回率、精确率和F-值分别为92.39%、91.33%、91.86%,条件随机域与规则相结合的中文地名识别系统的召回率、精确率和F-值分别为94.67%、92.35%和93.50%。