基于句子对齐的汉语句法结构推导的计算模型
A Computational Model for Chinese Syntactic Structure Induction Based on Sentence Alignment作者机构:北京大学信息科学技术学院计算语言学研究所北京100871
出 版 物:《软件学报》 (Journal of Software)
年 卷 期:2007年第18卷第3期
页 面:538-546页
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:Supported by the National Natural Science Foundation of China under Grant Nos.60473138 60675035 (国家自然科学基金)
主 题:句子对齐 无指导学习 边界摩擦 相同优先 相异优先 汉语句法结构推导
摘 要:基于句子的相似性,提出了无指导的汉语句法结构推导方法.基本思想是:首先,在汉语句子库的基础上,通过句对之间的对齐,得到交替的相同片断和相异片断.然后,根据相同片断优先或相异片断优先策略,选取相应的对齐片断作为句子成分候选,并对可能因片断交叉而导致边界摩擦的候选进行歧义消解.最后,通过逐步归约句子成分,推导出汉语句法结构树.为了避免对齐过程中词的稀疏问题,还对部分具有明显规律的词事先作了归类处理.分别以词、词性以及词联合词性作为句子基本构成单元,评测了推导的句法结果.测试结果表明:对于3种构成单元,相异片断优先归约得到的结果的F值都超过了46%,均优于相同片断优先归约所得到的结果,最好的达到了49.52%,好于已报道的结果.