咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >哈萨克语句法分析重排序技术研究 收藏
哈萨克语句法分析重排序技术研究

哈萨克语句法分析重排序技术研究

作     者:梁金莲 

作者单位:新疆大学 

学位级别:硕士

导师姓名:古丽拉·阿东别克

授予年度:2018年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:哈萨克语 PCFG模型 感知机 重排序 句法分析 

摘      要:自然语言处理研究主要有词法分析、句法分析以及语义分析,句法分析是哈萨克语现阶段的研究对象,在句法分析之前已经完成了词干提取、词性标注以及组块的研究工作,句法分析的研究也取得了不错的成果。本文主要对哈萨克语句法分析进行研究。PCFG模型进行句法分析过程中由于假设独立性太强,能捕捉到句子粗粒度的信息,即捕捉句子结构信息能力较强,但是语言是复杂的,句子中的语法结构并不是完全独立的,在进行句法分析阶段,词汇信息是比较重要的因素。该方法忽略了词汇信息对于句法分析的重要性,因此在句法分析中消歧能力有限。在此基础上,本文提出了使用感知机进行重排序的方法,感知机可以捕捉句子细粒度的词汇信息,从而弥补PCFG模型的这一缺陷。重排序的方法对哈萨克语句法分析是有效的,因此在本文中主要采用感知机的方法对候选解析树进行重排序。具体工作如下:首先使用最大熵模型对哈萨克语进行词性标注,实验验证不同的特征对词性标注的影响,并选择最佳的特征模板进行词性标注。其次进行哈萨克语的句法分析,本文中的哈萨克语句法分析重排序技术研究分为两个阶段:第一阶段分别使用PCFG模型和词汇化的模型进行简单的句法分析,并将这两个基础模型进行句法分析的解析效果进行对比。该阶段产生的句法分析候选树作为第二阶段重排序过程的输入,对哈萨克语进行进一步的句法分析。第二个阶段是重排序阶段,这个阶段使用感知机的算法进行重排序。该方法弥补了第一阶段句法分析中存在歧义现象的缺陷,在句法分析过程中能够获取句子中细粒度的词汇信息,并对基础模型产生的候选解析树进行重排序。感知机重排序的主要思想是对基础模型得到的候选解析树加入词汇信息以及细粒度的特征重新计算候选树节点得分,达到粗略的句法分析方法和细粒度的重排序方法相结合,从而提高句法分析效果。实验表明哈萨克语句法分析重排序方法是可行的。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分