基于大规模语料库的英语从句识别
作者单位:哈尔滨工业大学科学与技术学院 黑龙江省信息中心
会议名称:《第一届学生计算语言学研讨会》
会议日期:2002年
学科分类:0502[文学-外国语言文学] 05[文学] 050211[文学-外国语言学及应用语言学]
基 金:国家“863”项目基金(项目编号2001AA114101)的资助
摘 要:英语从句识别对于英语复合句的分析至关重要。本文基于Penn tree bank语料库,通过分析从句的组成规律,利用统计规则,通过分析从句的结构,从句在主句中的位置以及与主动词的关系来识别从句的左右边界,在识别的过程引入了关键词,并考虑到从句嵌套的问题。测试结果表明,句首的封闭测试精确率和召回率分别为91.06%和94.07%,开放测试精确率和召回率分别为82.13%和85.05%。